<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
統計和資料科學通常關注資料集的兩個或多個變數(或特徵)之間的關係。資料集中的每個資料點都是一個觀察值,特徵是這些觀察值的屬性或屬性。
這裡主要介紹下面3種相關性的計算方式:
np.corrcoef() 返回 Pearson 相關係數矩陣。
import numpy as np x = np.arange(10, 20) x array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19]) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) y array([ 2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) r = np.corrcoef(x, y) r array([[1. , 0.75864029], [0.75864029, 1. ]])
import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) scipy.stats.pearsonr(x, y) # Pearson's r (0.7586402890911869, 0.010964341301680832) scipy.stats.spearmanr(x, y) # Spearman's rho SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06) scipy.stats.kendalltau(x, y) # Kendall's tau KendalltauResult(correlation=0.911111111111111, pvalue=2.9761904761904762e-05)
在檢驗假設時,您可以在統計方法中使用p 值。p 值是一項重要的衡量標準,需要深入瞭解概率和統計資料才能進行解釋。
scipy.stats.pearsonr(x, y)[0] # Pearson's r 0.7586402890911869 scipy.stats.spearmanr(x, y)[0] # Spearman's rho 0.9757575757575757 scipy.stats.kendalltau(x, y)[0] # Kendall's tau 0.911111111111111
相對於來說計算比較簡單。
import pandas as pd x = pd.Series(range(10, 20)) y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) x.corr(y) # Pearson's r 0.7586402890911867 y.corr(x) 0.7586402890911869 x.corr(y, method='spearman') # Spearman's rho 0.9757575757575757 x.corr(y, method='kendall') # Kendall's tau 0.911111111111111
線性相關性測量變數或資料集特徵之間的數學關係與線性函數的接近程度。如果兩個特徵之間的關係更接近某個線性函數,那麼它們的線性相關性更強,相關係數的絕對值也更高。
線性迴歸是尋找儘可能接近特徵之間實際關係的線性函數的過程。換句話說,您確定最能描述特徵之間關聯的線性函數,這種線性函數也稱為迴歸線。
import pandas as pd x = pd.Series(range(10, 20)) y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
使用scipy.stats.linregress()對兩個長度相同的陣列執行線性迴歸。
result = scipy.stats.linregress(x, y) scipy.stats.linregress(xy) LinregressResult(slope=7.4363636363636365, intercept=-85.92727272727274, rvalue=0.7586402890911869, pvalue=0.010964341301680825, stderr=2.257878767543913) result.slope # 迴歸線的斜率 7.4363636363636365 result.intercept # 迴歸線的截距 -85.92727272727274 result.rvalue # 相關係數 0.7586402890911869 result.pvalue # p值 0.010964341301680825 result.stderr # 估計梯度的標準誤差 2.257878767543913
未來更多內容參考機器學習專欄中的線性迴歸內容。
比較與兩個變數或資料集特徵相關的資料的排名或排序。如果排序相似則相關性強、正且高。但是如果順序接近反轉,則相關性為強、負和低。換句話說等級相關性僅與值的順序有關,而不與資料集中的特定值有關。
圖1和圖2顯示了較大的 x 值始終對應於較大的 y 值的觀察結果,這是完美的正等級相關。圖3說明了相反的情況即完美的負等級相關。
使用 scipy.stats.rankdata() 來確定陣列中每個值的排名。
import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16]) # 獲取排名序 scipy.stats.rankdata(x) # 單調遞增 array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.]) scipy.stats.rankdata(y) array([ 2., 1., 3., 4., 5., 6., 7., 8., 10., 9.]) scipy.stats.rankdata(z) # 單調遞減 array([10., 9., 8., 7., 6., 5., 4., 3., 2., 1.])
rankdata() 將nan值視為極大。
scipy.stats.rankdata([8, np.nan, 0, 2]) array([3., 4., 1., 2.])
使用 scipy.stats.spearmanr() 計算 Spearman 相關係數。
result = scipy.stats.spearmanr(x, y) result SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06) result.correlation 0.9757575757575757 result.pvalue 1.4675461874042197e-06 rho, p = scipy.stats.spearmanr(x, y) rho 0.9757575757575757 p 1.4675461874042197e-06
使用 Pandas 計算 Spearman 和 Kendall 相關係數。
import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16]) x, y, z = pd.Series(x), pd.Series(y), pd.Series(z) xy = pd.DataFrame({'x-values': x, 'y-values': y}) xyz = pd.DataFrame({'x-values': x, 'y-values': y, 'z-values': z})
計算 Spearman 的 rho,method=spearman。
x.corr(y, method='spearman') 0.9757575757575757 xy.corr(method='spearman') x-values y-values x-values 1.000000 0.975758 y-values 0.975758 1.000000 xyz.corr(method='spearman') x-values y-values z-values x-values 1.000000 0.975758 -1.000000 y-values 0.975758 1.000000 -0.975758 z-values -1.000000 -0.975758 1.000000 xy.corrwith(z, method='spearman') x-values -1.000000 y-values -0.975758 dtype: float64
計算 Kendall 的 tau, method=kendall。
x.corr(y, method='kendall') 0.911111111111111 xy.corr(method='kendall') x-values y-values x-values 1.000000 0.911111 y-values 0.911111 1.000000 xyz.corr(method='kendall') x-values y-values z-values x-values 1.000000 0.911111 -1.000000 y-values 0.911111 1.000000 -0.911111 z-values -1.000000 -0.911111 1.000000 xy.corrwith(z, method='kendall') x-values -1.000000 y-values -0.911111 dtype: float64
資料視覺化在統計學和資料科學中非常重要。可以幫助更好地理解的資料,並更好地瞭解特徵之間的關係。
這裡使用 matplotlib 來進行資料視覺化。
import matplotlib.pyplot as plt plt.style.use('ggplot') import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16]) xyz = np.array([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19], [2, 1, 4, 5, 8, 12, 18, 25, 96, 48], [5, 3, 2, 1, 0, -2, -8, -11, -15, -16]])
使用 linregress() 獲得迴歸線的斜率和截距,以及相關係數。
slope, intercept, r, p, stderr = scipy.stats.linregress(x, y)
構建線性迴歸公式。
line = f' y={intercept:.2f}+{slope:.2f}x, r={r:.2f}' line 'y=-85.93+7.44x, r=0.76'
.plot() 繪圖
fig, ax = plt.subplots() ax.plot(x, y, linewidth=0, marker='s', label='Data points') ax.plot(x, intercept + slope * x, label=line) ax.set_xlabel('x') ax.set_ylabel('y') ax.legend(facecolor='white') plt.show()
處理特徵較多的相關矩陣用熱圖方式比較理想。
corr_matrix = np.corrcoef(xyz).round(decimals=2) corr_matrix array([[ 1. , 0.76, -0.97], [ 0.76, 1. , -0.83], [-0.97, -0.83, 1. ]])
其中為了表示方便將相關的資料四捨五入後用 .imshow() 繪製。
fig, ax = plt.subplots() im = ax.imshow(corr_matrix) im.set_clim(-1, 1) ax.grid(False) ax.xaxis.set(ticks=(0, 1, 2), ticklabels=('x', 'y', 'z')) ax.yaxis.set(ticks=(0, 1, 2), ticklabels=('x', 'y', 'z')) ax.set_ylim(2.5, -0.5) for i in range(3): for j in range(3): ax.text(j, i, corr_matrix[i, j], ha='center', va='center', color='r') cbar = ax.figure.colorbar(im, ax=ax, format='% .2f') plt.show()
import seaborn as sns plt.figure(figsize=(11, 9),dpi=100) sns.heatmap(data=corr_matrix, annot_kws={'size':8,'weight':'normal', 'color':'#253D24'},#數位屬性設定,例如字號、磅值、顏色 )
以上就是詳解Python進行資料相關性分析的三種方式的詳細內容,更多關於Python資料相關性分析的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45