<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
提示:文章寫完後,目錄可以自動生成,如何生成可參考右邊的幫助檔案
本文記錄了一下Python在文書處理時的一些過程+程式碼
我準備了一個名為abstract.txt的文字檔案
接著是在網上下載了stopword.txt(用於結巴分詞時的停用詞)
有一些是自己覺得沒有用加上去的
另外建立了自己的詞典extraDict.txt
準備工作做好了,就來看看怎麼使用吧!
程式碼如下:
import jieba from jieba.analyse import extract_tags from sklearn.feature_extraction.text import TfidfVectorizer
程式碼如下:
jieba.load_userdict('extraDict.txt') # 匯入自己建立詞典
def stopwordlist(): stopwords = [line.strip() for line in open('chinesestopwords.txt', encoding='UTF-8').readlines()] # ---停用詞補充,視具體情況而定--- i = 0 for i in range(19): stopwords.append(str(10 + i)) # ---------------------- return stopwords
def seg_word(line): # seg=jieba.cut_for_search(line.strip()) seg = jieba.cut(line.strip()) temp = "" counts = {} wordstop = stopwordlist() for word in seg: if word not in wordstop: if word != ' ': temp += word temp += 'n' counts[word] = counts.get(word, 0) + 1#統計每個詞出現的次數 return temp #顯示分詞結果 #return str(sorted(counts.items(), key=lambda x: x[1], reverse=True)[:20]) # 統計出現前二十最多的詞及次數
def output(inputfilename, outputfilename): inputfile = open(inputfilename, encoding='UTF-8', mode='r') outputfile = open(outputfilename, encoding='UTF-8', mode='w') for line in inputfile.readlines(): line_seg = seg_word(line) outputfile.write(line_seg) inputfile.close() outputfile.close() return outputfile
if __name__ == '__main__': print("__name__", __name__) inputfilename = 'abstract.txt' outputfilename = 'a1.txt' output(inputfilename, outputfilename)
先來講一下思路:
例如給出下面這樣一句話
Love is more than a word
it says so much.
When I see these four letters,
I almost feel your touch.
This is only happened since
I fell in love with you.
Why this word does this,
I haven’t got a clue.
那麼想要統計裡面每一個單詞出現的次數,思路很簡單,遍歷一遍這個字串,再定義一個空字典count_dict,看每一個單詞在這個用於統計的空字典count_dict中的key中存在否,不存在則將這個單詞當做count_dict的鍵加入字典內,然後值就為1,若這個單詞在count_dict裡面已經存在,那就將它對應的鍵的值+1就行
下面來看程式碼:
#定義字串 sentences = """ # 字串很長時用三個引號 Love is more than a word it says so much. When I see these four letters, I almost feel your touch. This is only happened since I fell in love with you. Why this word does this, I haven't got a clue. """ #具體實現 # 將句子裡面的逗號去掉,去掉多種符號時請用迴圈,這裡我就這樣吧 sentences=sentences.replace(',','') sentences=sentences.replace('.','') # 將句子裡面的.去掉 sentences = sentences.split() # 將句子分開為單個的單詞,分開後產生的是一個列表sentences # print(sentences) count_dict = {} for sentence in sentences: if sentence not in count_dict: # 判斷是否不在統計的字典中 count_dict[sentence] = 1 else: # 判斷是否不在統計的字典中 count_dict[sentence] += 1 for key,value in count_dict.items(): print(f"{key}出現了{value}次")
輸出結果是這樣:
以上就是今天要講的內容,本文僅僅簡單介紹了python的中文分詞及詞頻統計!
到此這篇關於python中文分詞+詞頻統計的實現步驟的文章就介紹到這了,更多相關python中文分詞 詞頻統計內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45