首頁 > 科技

資料探勘中常用的基本降維思路及方法總結

2021-06-29 10:21:48

來源:資料STUDIO

作者:雲朵君

01、降維的意義

降低無效、錯誤資料對建模的影響,提高建模的準確性。少量切具有代表性的資料將大幅縮減挖掘所需的時間。降低儲存資料的成本。02、需要降維的情況

大多數情況下,面臨高維資料,就要降維處理

維度數量。降維基本前提是高維。建模輸出是否必須保留原始維度。如果需要最終建模輸出是能夠分析、解釋和應用,則只能通過特徵篩選或聚類等方式降維。對模型對計算效率和建模時效性有要求。是否需要保留完整的資料特徵。03、基於特徵選擇的降維

根據一定的規則和經驗,直接選取原有維度的一部分參與後續的計算和建模過程,用選擇的維度代替所有維度。優勢是既能滿足後續資料處理和建模要求,又能保留維度原本的業務含義,以便業務理解和應用。

四種思路

經驗法: 根據業務專家或資料專家的以往經驗、實際資料情況、業務理解程度等進行綜合考慮。

測演算法: 通過不斷測試多種維度選擇參與計算,通過結果來反覆驗證和調整,並最終找到最佳特徵方案。

基於統計分析方法: 通過相關分析不同維度間的線性關係,在相關性高的維度中進行人工去除或篩選

方差過濾:classs sklearn.feature_selection.VarianceThreshold(threshold=0.0) .fit_transform(X,y)卡方過濾:原假設是相互獨立 SelectKBest(chi2,k).fit_transform(X,y)F檢驗:原假設是不存在顯著的線性關係 SelectKBest(f_classif,k).fit_transform(X,y)通過計算不同維度間的互資訊,找到具有較高互資訊的特徵集,然後去除或留下其中一個。SelectKBest(model,k).fit_transform(X,y) 其中 model=multual_info_classif 或 multual_info_regression機器學習演算法: 通過機器學習演算法得到不同特徵的特徵值或權重,選擇權重較大的特徵。

嵌入法:精確度模型本身,是過濾法的進階版。sklearn.feature_selection.SelectFromModel(sklearn.ensemble.RandomForestClassifier(),threshold=0.01).fit_transfrom(X,y)包裝法:sklearn.feature_selection.RFE(sklearn.SVM.SVC(),k).fit_transfrom(X,y)04、基於特徵轉換的降維

按照一定的數學變換方法,把給定的一組相關變數(特徵)通過數學模型將高維空間資料點對映到低維空間中,然後用對映後到變數的特徵來表示原有變數的總體特徵。這種方式是一種產生新維度的過程,轉換後的維度並非原有的維度本體,而是其綜合多個維度轉換或對映後的表示式。

PCA(主成分分析)

PCA (Principal Component Analysis) sklearn.decomposition.PCA(n_components=None,whiten=False)

from sklearn.decomposition import PCApca=PCA().fit()pca.components_ # 返回模型各個特徵向量pca.explained_variance_ratio_ # 返回各自成分的方差百分比

圖片來源網路

按照一定的數學變換方法,把給定的一組相關變數(特徵)通過線性變換轉換成另一組不相關的變數,這些新變數按照方差依次遞減的順序排列。方法越大,包含的資訊越多。(無監督式學習,從特徵的協方差角度,去選擇樣本點投影具有最大方差方向)n維可用。

二維轉一維舉例

所謂主成分:選出比原始變數個數少、能夠解釋資料中大部分的變數的幾個新變數,來替換原始變數進行建模。

PCA是將資料投影到方差最大的幾個相互正交的方向上,以期待保留最多的樣本資訊。

PCA演算法1,將原始資料按列組成 行 列矩陣2,將 的每一行(代表一個屬性欄位) 進行標準化處理。3,求出相關係數矩陣4,求出 的特徵值 及對應的特徵向量5,將特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前 行組成矩陣6,,

LDA(線性判別分析)

LDA (Linear Discriminant Analysis)

通過已知類別的「訓練樣本」,來建立判別準則,並通過預測變數來為已知資料進行分類。(有監督式學習,考慮分類標籤資訊,投影后選擇分類效能最好的方向) C-1維(分類標籤數-1)

基本思想是將高維資料的模式樣本投影到最佳鑑別向量空間,已到達抽取分類資訊和壓縮特徵空間維度的效果。投影后保證模式樣本在新子空間的類空間距離和最小的類距離,集模式在該空間中有最佳可分離性。

使樣本儘可能好分的投影方向,就是要使投影后使得同類樣本儘可能近,不同類樣本儘可能遠。

圖片來源網路

05、基於特徵組合的降維

將輸入特徵與目標預測變數做擬合的過程,它將輸入特徵經過運算,並得出能對目標變數作出很好解釋(預測性)對複合特徵,這些特徵不是原有對單一特徵,而是經過組合和變換後的新特徵。

優點:提高模型準確率、降低噪聲干擾(魯棒性更強)、增加了對目標變數的解釋性。

方法:

基於單一特徵離散化後的組合。 現將連續性特徵離散化後組合成新的特徵。如RFM模型基於單一特徵的運算後的組合。 對於單一列基於不同條件下獲得的資料記錄做求和、均值等獲得新特徵。基於多個特徵的運算後的組合。 將多個單一特徵做複合計算(包括加減乘除對數等),(一般基於數值型特徵)獲得新特徵。基於模型等特徵最優組合。 基於輸入特徵與目標變數,在特定的優化函數的前提下做模型迭代計算,以到達模型最優的解。如多項式的特徵組合、基於GBDT的特徵組合。GBDT

sklearn.ensemble.GradientBoostingClassifier( ).fit(X,y).apply(X)[:,:,0]

apply()返回的是[n_samples,n_estimators, n_classes]

多項式

sklearn.preprocessing.PolynomialFeatures.fit_transform(X,y).get_feature_names()

Ok,今天的分享就到這裡啦!


IT145.com E-mail:sddin#qq.com