<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
該方法是對原始資料進行線性變換,將其對映到[0,1]之間,該方法也被稱為離差標準化。
上式中,min是樣本的最小值,max是樣本的最大值。由於最大值與最小值可能是動態變化的,同時也非常容易受噪聲(異常點、離群點)影響,因此一般適合小資料的場景。此外,該方法還有兩點好處:
1) 如果某屬性/特徵的方差很小,如身高:np.array([[1.70],[1.71],[1.72],[1.70],[1.73]]),實際5條資料在身高這個特徵上是有差異的,但是卻很微弱,這樣不利於模型的學習,進行min-max歸一化後為:array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]]),相當於放大了差異;
2) 維持稀疏矩陣中為0的條目。
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_wine wine = load_wine() data = wine.data # 資料 lables = wine.target # 標籤 feaures = wine.feature_names df = pd.DataFrame(data, columns=feaures) # 原始資料 # 第一步:無量綱化 def standareData(df): """ df : 原始資料 return : data 標準化的資料 """ data = pd.DataFrame(index=df.index) # 列名,一個新的dataframe columns = df.columns.tolist() # 將列名提取出來 for col in columns: d = df[col] max = d.max() min = d.min() mean = d.mean() data[col] = ((d - mean) / (max - min)).tolist() return data # 某一列當做參照序列,其他為對比序列 def graOne(Data, m=0): """ return: """ columns = Data.columns.tolist() # 將列名提取出來 # 第一步:無量綱化 data = standareData(Data) referenceSeq = data.iloc[:, m] # 參考序列 data.drop(columns[m], axis=1, inplace=True) # 刪除參考列 compareSeq = data.iloc[:, 0:] # 對比序列 row, col = compareSeq.shape # 第二步:參考序列 - 對比序列 data_sub = np.zeros([row, col]) for i in range(col): for j in range(row): data_sub[j, i] = abs(referenceSeq[j] - compareSeq.iloc[j, i]) # 找出最大值和最小值 maxVal = np.max(data_sub) minVal = np.min(data_sub) cisi = np.zeros([row, col]) for i in range(row): for j in range(col): cisi[i, j] = (minVal + 0.5 * maxVal) / (data_sub[i, j] + 0.5 * maxVal) # 第三步:計算關聯度 result = [np.mean(cisi[:, i]) for i in range(col)] result.insert(m, 1) # 參照列為1 return pd.DataFrame(result) def GRA(Data): df = Data.copy() columns = [str(s) for s in df.columns if s not in [None]] # [1 2 ,,,12] # print(columns) df_local = pd.DataFrame(columns=columns) df.columns = columns for i in range(len(df.columns)): # 每一列都做參照序列,求關聯絡數 df_local.iloc[:, i] = graOne(df, m=i)[0] df_local.index = columns return df_local # 熱力圖展示 def ShowGRAHeatMap(DataFrame): colormap = plt.cm.hsv ylabels = DataFrame.columns.values.tolist() f, ax = plt.subplots(figsize=(15, 15)) ax.set_title('Wine GRA') # 設定展示一半,如果不需要註釋掉mask即可 mask = np.zeros_like(DataFrame) mask[np.triu_indices_from(mask)] = True # np.triu_indices 上三角矩陣 with sns.axes_style("white"): sns.heatmap(DataFrame, cmap="YlGnBu", annot=True, mask=mask, ) plt.show() data_wine_gra = GRA(df) ShowGRAHeatMap(data_wine_gra)
利用熱力圖可以看資料表裡多個特徵兩兩的相似度。
相似度由皮爾遜相關係數度量。
兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商:
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # ====熱力圖 from matplotlib.ticker import FormatStrFormatter encoding="utf-8" data = pd.read_csv("tu.csv", encoding="utf-8") #讀取資料 data.drop_duplicates() data.columns = [i for i in range(data.shape[1])] # 計算兩兩屬性之間的皮爾森相關係數 corrmat = data.corr() f, ax = plt.subplots(figsize=(12, 9)) # 返回按「列」降序排列的前n行 k = 30 cols = corrmat.nlargest(k, data.columns[0]).index # 返回皮爾遜積矩相關係數 cm = np.corrcoef(data[cols].values.T) sns.set(font_scale=1.25) hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt=".3f", vmin=0, #刻度閾值 vmax=1, linewidths=.5, cmap="RdPu", #刻度顏色 annot_kws={"size": 10}, xticklabels=True, yticklabels=True) #seaborn.heatmap相關屬性 # 解決中文顯示問題 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # plt.ylabel(fontsize=15,) # plt.xlabel(fontsize=15) plt.title("主要變數之間的相關性強弱", fontsize=20) plt.show()
1)Seaborn是基於matplotlib的Python視覺化庫
seaborn.heatmap()熱力圖,用於展示一組變數的相關係數矩陣,列聯表的資料分佈,通過熱力圖我們可以直觀地看到所給數值大小的差異狀況。
seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None, **kwargs)
2)引數輸出(均為預設值)
sns.heatmap( data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor=‘white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels=‘auto', yticklabels=‘auto', mask=None, ax=None, )
3)具體介紹
(1)熱力圖輸入資料引數data:矩陣資料集,可以是numpy的陣列(array),也可以是pandas的DataFrame。如果是DataFrame,則df的index/column資訊會分別對應到heatmap的columns和rows,即df.index是熱力圖的行標,df.columns是熱力圖的列標
(2)熱力圖矩陣塊顏色引數vmax,vmin:分別是熱力圖的顏色取值最大和最小範圍,預設是根據data資料表裡的取值確定
(3)熱力圖矩陣塊註釋引數
cmap:從數位到色彩空間的對映,取值是matplotlib包裡的colormap名稱或顏色物件,或者表示顏色的列表;改引數預設值:根據center引數設定
center:資料表取值有差異時,設定熱力圖的色彩中心對齊值;通過設定center值,可以調整生成的影象顏色的整體深淺;設定center資料時,如果有資料溢位,則手動設定的vmax、vmin會自動改變
robust:預設取值False;如果是False,且沒設定vmin和vmax的值,熱力圖的顏色對映範圍根據具有魯棒性的分位數設定,而不是用極值設定annot(annotate的縮寫):預設取值False;如果是True,在熱力圖每個方格寫入資料;如果是矩陣,在熱力圖每個方格寫入該矩陣對應位置資料
(4)熱力圖矩陣塊之間間隔及間隔線引數
fmt:字串格式程式碼,矩陣上標識數位的資料格式,比如保留小數點後幾位數位
annot_kws:預設取值False;如果是True,設定熱力圖矩陣上數位的大小顏色字型,matplotlib包text類下的字型設定;linewidths:定義熱力圖裡“表示兩兩特徵關係的矩陣小塊”之間的間隔大小
(5)熱力圖顏色刻度條引數
linecolor:切分熱力圖上每個矩陣小塊的線的顏色,預設值是’white’cbar:是否在熱力圖側邊繪製顏色刻度條,預設值是True
(6)square:設定熱力圖矩陣小塊形狀,預設值是False
cbar_kws:熱力圖側邊繪製顏色刻度條時,相關字型設定,預設值是None
cbar_ax:熱力圖側邊繪製顏色刻度條時,刻度條位置設定,預設值是Nonexticklabels, yticklabels:xticklabels控制每列標籤名的輸出;yticklabels控制每行標籤名的輸出。預設值是auto。如果是True,則以DataFrame的列名作為標籤名。如果是False,則不新增行標籤名。如果是列表,則標籤名改為列表中給的內容。如果是整數K,則在圖上每隔K個標籤進行一次標註。 如果是auto,則自動選擇標籤的標註間距,將標籤名不重疊的部分(或全部)輸出
mask:控制某個矩陣塊是否顯示出來。預設值是None。如果是布林型的DataFrame,則將DataFrame裡True的位置用白色覆蓋掉
ax:設定作圖的座標軸,一般畫多個子圖時需要修改不同的子圖的該值
**kwargs:所有其他關鍵字引數都傳遞給 ax.pcolormesh。
到此這篇關於python熱力圖實現的文章就介紹到這了,更多相關python熱力圖實現內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45