<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
這是所有的程式碼
from collections import defaultdict import jieba.posseg as jp with open('keyword.txt','r',encoding='utf-8') as file: keyword_list = file.read().split('n') not_flag = set(['w','x','y','z','un','m']) not_word = set(['的','是','有','啊','呢','麼','好']) keyword_split = dict() word_count = defaultdict(int) for keyword in keyword_list: word_set = set() for word,flag in jp.cut(keyword): if flag in not_flag: continue if word in not_word: continue if word == 'pdf' or word == 'PDF': continue word_count[word] += 1 word_set.add(word) keyword_split[keyword] = word_set id_keyword_list = defaultdict(list) id_count = defaultdict(int) for keyword,word_set in keyword_split.items(): word_sort = dict() for word in word_set: word_sort[word] = word_count[word] word_sort = sorted(word_sort.items(),key=lambda x:x[1],reverse=True) word_id = ','.join([word for word,count in word_sort[0:3]]) id_keyword_list[word_id] += [keyword] id_count[word_id] += 1 result = [] id_count = sorted(id_count.items(),key=lambda x:x[1],reverse=True) for word_id,count in id_count: if count < 3: continue for keyword in id_keyword_list[word_id]: result.append('%st%s' % (keyword,word_id)) result.append('') with open('result.txt','wb') as file: file.write('n'.join(result).encode('utf-8'))
keyword.txt
如下圖:
有50萬的關於pdf的關鍵詞資料
最後的輸出result.txt
就是將裡面的含有關鍵詞相同的句子統一輸出出來:
這裡會將一個句子的3個關鍵詞輸出出來 關鍵詞是根據詞頻排序的。
最後將所有關鍵詞一樣的句子組合在一起,就可以知道這些句子表達的意思大致一致
keyword_list
是從keyword.txt讀取到的所有的句子
not_flag
是要排除的標記,不統計這些標記
not_word
是要排除的單詞,不統計這些單詞
keyword_split
是句子對應到他的所有單詞的字典,key是句子,value是他的所有單詞的集合
word_count
是所有的拆分後的單詞的次數的字典,key是單詞,value是單詞出現的次數
id_keyword_list
是一個字典,它的key是一個字串 value是列表
id_count
是一個字典,它的key是一個字串,value是int
最後對id_count處理 將結果輸出出來
id_count = sorted(id_count.items(), key=lambda x: x[1], reverse=True) for word_id, count in id_count: if count < 3: continue for keyword in id_keyword_list[word_id]: result.append('%st%s' % (keyword, word_id)) result.append('')
到此這篇關於Python基於詞頻排序實現快速挖掘關鍵詞的文章就介紹到這了,更多相關Python挖掘關鍵詞內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45