首頁 > 軟體

利用python實現簡單的情感分析範例教學

2022-06-11 14:01:49

python實現簡單的情感分析

1 資料匯入及預處理

1.1 資料匯入

#  資料匯入
import pandas as pd
data = pd.read_csv('../data/京東評論資料.csv')
data.head()

1.2 資料描述

#  資料描述
data.describe()

1.3 資料預處理

#  資料預處理
#  取出sku_Id,content欄位
data1 = data[['sku_id', 'content']]
data1.head(10)

2 情感分析

2.1 情感分

#  情感分析
from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x: SnowNLP(x).sentiments)
data1.head()

#  情感資料描述
data1.describe()

emotion平均值為0.74,中位數為0.96,25%分位數為0.56,可見不到25%的資料造成了整體均值的較大下移。

2.2 情感分直方圖

#  繪製情感分直方圖
import matplotlib.pyplot as plt
import numpy as np
 
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
 
bins = np.arange(0, 1.1, 0.1)
plt.hist(data1['emotion'], bins, color = '#4F94CD', alpha=0.9)
plt.xlim(0, 1)
plt.xlabel('情感分')
plt.ylabel('數量')
plt.title('情感分直方圖')
plt.show()

由直方圖可見,評論內容兩級分化較為嚴重;

3637條評論中有約2200條評論情感分在[0.9,1]區間內;同時,有約500條評論情感分在[0,0.1]區間內。

2.3 詞雲圖

#  繪製詞雲圖(這兒沒有做停用詞處理)
from wordcloud import WordCloud
import jieba
 
myfont = myfont = r'C:WindowsFontssimhei.ttf'
w = WordCloud(font_path=myfont)
text = ''
for i in data['content']:
    text += i
data_cut = ' '.join(jieba.lcut(text))
w.generate(data_cut)
image = w.to_file('詞雲圖.png')
image

2.4 關鍵詞提取

#  關鍵詞提取top10
#  這兒直接寫import jieba執行會顯示沒有analyse屬性
from jieba import analyse
 
key_words = jieba.analyse.extract_tags(sentence=text, topK=10, withWeight=True, allowPOS=())
key_words

以上關鍵詞顯示,消費者比較在意手機的“螢幕”“拍照”“手感”等特性,“華為”“小米”是出現頻次最高的兩個手機品牌。

引數說明 :

  • sentence 需要提取的字串,必須是str型別,不能是list
  • topK 提取前多少個關鍵字
  • withWeight 是否返回每個關鍵詞的權重
  • allowPOS是允許的提取的詞性,預設為allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’,提取地名、名詞、動名詞、動詞

3 積極評論與消極評論

3.1 積極評論與消極評論佔比

#  計算積極評論與消極評論各自的數目
pos, neg = 0, 0
for i in data1['emotion']:
    if i >= 0.5:
        pos += 1
    else:
        neg += 1
print('積極評論數目為:', pos, 'n消極評論數目為:', neg)

#  積極消極評論佔比
import matplotlib.pyplot as plt
 
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
 
pie_labels = 'positive', 'negative'
plt.pie([pos, neg], labels=pie_labels, autopct='%1.2f%%', shadow=True)
 
plt.show()

3.2 消極評論分析

#  獲取消極評論的資料
data2 = data1[data1['emotion'] < 0.5]
data2.head()

#消極評論詞雲圖(這兒沒有做停用詞處理)
text2 = ''
for s in data2['content']:
    text2 += s
data_cut2 = ' '.join(jieba.lcut(text2))
w.generate(data_cut2)
image = w.to_file('消極評論詞雲.png')
image

#消極評論關鍵詞top10
key_words = jieba.analyse.extract_tags(sentence=text2, topK=10, withWeight=True, allowPOS=())
key_words

消極評論關鍵詞顯示,“螢幕”“快遞”“充電”是造成使用者體驗不佳的幾個重要因素;螢幕和充電問題有可能是手機不良品率過高或快遞壓迫;

因此平臺應注重提高手機品控,降低不良品率;另外應設法提升發貨,配送,派件的效率和質量。

總結

到此這篇關於利用python實現簡單的情感分析的文章就介紹到這了,更多相關python情感分析內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com