使用Python和scikit-learn建立混淆矩陣的範例詳解

2022-06-06 18:00:11

一、混淆矩陣概述

在訓練了有監督的機器學習模型（例如分類器）之後，您想知道它的工作情況。

這通常是通過將一小部分稱為測試集的資料分開來完成的，該資料用作模型以前從未見過的資料。

如果它在此資料集上表現良好，那麼該模型很可能在其他資料上也表現良好 - 當然，如果它是從與您的測試集相同的分佈中取樣的。

現在，當您測試您的模型時，您向其提供資料 - 並將預測與基本事實進行比較，測量真陽性、真陰性、假陽性和假陰性的數量。這些隨後可以在視覺上吸引人的混淆矩陣中視覺化。

在今天我們將學習如何使用 Scikit-learn 建立這樣的混淆矩陣，Scikit-learn 是當今機器學習社群中使用最廣泛的機器學習框架之一。通過使用 Python 建立的範例，展示如何生成一個矩陣，您可以使用該矩陣輕鬆直觀地確定模型的效能。

1、範例1

一個混淆矩陣的例子

它是一個歸一化的混淆矩陣。它的描述了兩個度量：

True label，這是您的測試集所代表的基本事實。

Predicted label，即機器學習模型對與真實標籤對應的特徵生成的預測。

例如，在上面的模型中，對於所有真實標籤 1，預測標籤為 1。這意味著來自第 1 類的所有樣本都被正確分類。

對於其他類，效能也不錯，但稍差一些。如您所見，對於第 2 類，一些樣本被預測為第 0 類和第 1 類的一部分。

簡而言之，它回答了“對於我的真實標籤/基本事實，模型的預測效果如何？”這個問題。

2、範例2

也可以從預測的角度看，問題將變為“對於我的預測標籤，有多少預測實際上是預測類別的一部分？”。這是相反的觀點，但在許多機器學習案例中可能是一個有意義的問題。

最優情況，是整個真實標籤集等於預測標籤集。在這些情況下，除了從左上角到右下角的線之外，您會在各處看到零。然而，在實踐中，這種情況並不經常發生。很可能更加分散，例如下面這個 SVM 分類器，其中需要許多支援向量來繪製不能完美工作但足夠充分的決策邊界：

二、使用Scikit-learn 建立混淆矩陣

現在建立一個混淆矩陣。將使用 Python 和 Scikit-learn。

建立混淆矩陣涉及多個步驟：

1、生成範例資料集。需要資料來訓練我們的模型。因此，我們將首先生成資料，以便我們接下來可以為 ML 模型類做出適當的選擇。

2、選擇機器學習模型類。顯然，如果我們要評估一個模型，我們需要訓練一個模型。我們將首先選擇適合我們資料特徵的特定型別的模型。

3、構建和訓練 ML 模型。前兩個步驟的結果是我們最終得到了一個訓練有素的模型。

4、生成混淆矩陣。最後，基於訓練好的模型，我們可以建立我們的混淆矩陣。

1、相應軟體包

需要以下包，假定已經安裝好了Python環境、Scikit-learn、Numpy、Matplotlib、Mlxtend

2、生成範例資料集

第一步是生成範例資料集。我們也將為此目的使用 Scikit-learn。首先，建立一個名為的檔案confusion-matrix.py。

（1）匯入相關的包

# Imports
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt

Scikit-learn的make_blobs功能可以生成樣本的“blob”或叢集。這些斑點以某個點為中心，並且樣本基於某個標準偏差分散在該點周圍。這使您可以靈活地確定生成的資料集的位置和結構，從而使您可以試驗各種 ML 模型。

在評估模型時，我們需要確保資料集在訓練資料和測試資料之間進行分割。Scikit-learn使用train_test_split函數實現分割。

（2）相關設定

# Configuration options
blobs_random_seed = 42
centers = [(0,0), (5,5), (0,5), (2,3)]
cluster_std = 1.3
frac_test_split = 0.33
num_features_for_samples = 4
num_samples_total = 5000

隨機種子描述了用於生成資料塊的偽亂數生成器的初始化。您可能知道，沒有亂數生成器是真正隨機的。更重要的是，它們的初始化方式也不同。設定固定種子可確保每次執行指令碼時，亂數生成器都以相同的方式初始化。如果出現奇怪的行為，您就知道它可能不是亂數生成器。

中心描述了我們資料塊的二維空間中的中心。如您所見，我們今天有 4 個 blob。

聚類標準差描述了從隨機點生成器使用的抽樣分佈中抽取樣本的標準差。我們將其設定為 1.3；較低的數位會產生更好分離的叢集，反之亦然。

訓練/測試拆分的比例決定了為了測試目的拆分了多少資料。在我們的例子中，這是 33% 的資料。

我們樣本的特徵數量是 4，並且確實描述了我們有多少目標：4，因為我們有 4 個資料塊。

最後，生成的樣本數量。我們將其設定為 5000 個樣本。

（3）生成資料

# Generate data
inputs, targets = make_blobs(n_samples = num_samples_total, centers = centers, n_features = num_features_for_samples, cluster_std = cluster_std)
X_train, X_test, y_train, y_test = train_test_split(inputs, targets, test_size=frac_test_split, random_state=blobs_random_seed)

（4）儲存資料(可選)

# Save and load temporarily
np.save('./data_cf.npy', (X_train, X_test, y_train, y_test))
X_train, X_test, y_train, y_test = np.load('./data_cf.npy', allow_pickle=True)

（5）視覺化資料

# Generate scatter plot for training data 
plt.scatter(X_train[:,0], X_train[:,1])
plt.title('Linearly separable data')
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()

3、訓練一個SVM

（1）匯入相關包

from sklearn import svm
from sklearn.metrics import plot_confusion_matrix
from mlxtend.plotting import plot_decision_regions

（2）訓練分類器

# Initialize SVM classifier
clf = svm.SVC(kernel='linear')
 
# 擬合資料
clf = clf.fit(X_train, y_train)

4、生成混淆矩陣

它是評估步驟的一部分，我們用它來視覺化它在測試集上的預測和泛化能力。

使用plot_confusion_matrix呼叫為我們解決了這個問題，我們只需向它提供分類器 (clf)、測試集 (X_test和y_test)、顏色圖以及是否對資料進行歸一化。

# Generate confusion matrix
matrix = plot_confusion_matrix(clf, X_test, y_test,
                                 cmap=plt.cm.Blues,
                                 normalize='true')
plt.title('Confusion matrix for our classifier')
plt.show(matrix)
plt.show()

5、視覺化邊界

如果要生成邊界圖，需要安裝 Mlxtend

# Get support vectors
support_vectors = clf.support_vectors_
 
# Visualize support vectors
plt.scatter(X_train[:,0], X_train[:,1])
plt.scatter(support_vectors[:,0], support_vectors[:,1], color='red')
plt.title('Linearly separable data with support vectors')
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()
 
# Plot decision boundary
plot_decision_regions(X_test, y_test, clf=clf, legend=2)
plt.show()