Python機器學習庫scikit-learn入門開發範例

2022-07-28 14:01:31

1.資料採集和標記

先採集資料，再對資料進行標記。其中採集資料要就有代表性，以確保最終訓練出來模型的準確性。

2.特徵選擇

選擇特徵的直觀方法：直接使用圖片的每個畫素點作為一個特徵。

資料儲存為樣本個數×特徵個數格式的array物件。scikit-learn使用Numpy的array物件來表示資料，所有的圖片資料儲存在digits.images裡，每個元素都為一個8×8尺寸的灰階圖片。

3.資料淨化

把採集到的、不合適用來做機器學習訓練的資料進行預處理，從而轉換為合適機器學習的資料。

目的：減少計算量，確保模型穩定性。

4.模型選擇

對於不同的資料集，選擇不同的模型有不同的效率。因此在選擇模型要考慮很多的因素，來提高最終選擇模型的契合度。

5.模型訓練

在進行模型訓練之前，要將資料集劃分為訓練資料集和測試資料集，再利用劃分好的資料集進行模型訓練，最後得到我們訓練出來的模型引數。

6.模型測試

模型測試的直觀方法：用訓練出來的模型預測測試資料集，然後將預測出來的結果與真正的結果進行比較，最後比較出來的結果即為模型的準確度。

scikit-learn提供的完成這項工作的方法：

clf . score ( Xtest , Ytest)

除此之外，還可以直接把測試資料集裡的部分圖片顯示出來，並且在圖片的左下角顯示預測值，右下角顯示真實值。

7.模型儲存與載入

當我們訓練出一個滿意的模型後即可將模型儲存下來，這樣當下次需要預測時，可以直接利用此模型進行預測，不用再一次進行模型訓練。

8.範例

資料採集和標記

#匯入庫
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
"""
sk-learn庫中自帶了一些資料集
此處使用的就是手寫數位識別圖片的資料
"""
# 匯入sklearn庫中datasets模組
from sklearn import datasets
# 利用datasets模組中的函數load_digits()進行資料載入
digits = datasets.load_digits()
# 把資料所代表的圖片顯示出來
images_and_labels = list(zip(digits.images, digits.target))
plt.figure(figsize=(8, 6))
for index, (image, label) in enumerate(images_and_labels[:8]):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Digit: %i' % label, fontsize=20);

特徵選擇

# 將資料儲存為 樣本個數x特徵個數 格式的array物件 的資料格式進行輸出
# 資料已經儲存在了digits.data檔案中
print("shape of raw image data: {0}".format(digits.images.shape))
print("shape of data: {0}".format(digits.data.shape))

模型訓練

# 把資料分成訓練資料集和測試資料集（此處將資料集的百分之二十作為測試資料集）
from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(digits.data, digits.target, test_size=0.20, random_state=2);
# 使用支援向量機來訓練模型
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100., probability=True)
# 使用訓練資料集Xtrain和Ytrain來訓練模型
clf.fit(Xtrain, Ytrain);

模型測試

"""
sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
normalize：預設值為True，返回正確分類的比例；如果為False，返回正確分類的樣本數
"""
# 評估模型的準確度(此處預設為true，直接返回正確的比例，也就是模型的準確度)
from sklearn.metrics import accuracy_score
# predict是訓練後返回預測結果，是標籤值。
Ypred = clf.predict(Xtest);
accuracy_score(Ytest, Ypred)

模型儲存與載入

"""
將測試資料集裡的部分圖片顯示出來
圖片的左下角顯示預測值，右下角顯示真實值
"""
# 檢視預測的情況
fig, axes = plt.subplots(4, 4, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)
for i, ax in enumerate(axes.flat):
    ax.imshow(Xtest[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
    ax.text(0.05, 0.05, str(Ypred[i]), fontsize=32,
            transform=ax.transAxes,
            color='green' if Ypred[i] == Ytest[i] else 'red')
    ax.text(0.8, 0.05, str(Ytest[i]), fontsize=32,
            transform=ax.transAxes,
            color='black')
    ax.set_xticks([])
    ax.set_yticks([])

# 儲存模型引數
import joblib
joblib.dump(clf, 'digits_svm.pkl');

儲存模型引數過程中出現如下錯誤：

原因：sklearn.externals.joblib函數是用在0.21及以前的版本中，在最新的版本，該函數應被棄用。

解決方法：將 from sklearn.externals import joblib改為 import joblib

# 匯入模型引數，直接進行預測
clf = joblib.load('digits_svm.pkl')
Ypred = clf.predict(Xtest);
clf.score(Xtest, Ytest)

到此這篇關於Python機器學習庫scikit-learn入門開發範例的文章就介紹到這了,更多相關Python scikit-learn內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！