首頁 > 軟體

Pytorch中關於model.eval()的作用及分析

2023-02-05 14:01:21

model.eval()的作用及分析

  • model.eval() 作用等同於 self.train(False)

簡而言之,就是評估模式。而非訓練模式。

在評估模式下,batchNorm層,dropout層等用於優化訓練而新增的網路層會被關閉,從而使得評估時不會發生偏移。

結論

在對模型進行評估時,應該配合使用with torch.no_grad() 與 model.eval():

    loop:
        model.train()    # 切換至訓練模式
        train……
        model.eval()
        with torch.no_grad():
            Evaluation
    end loop

Pytorch踩坑之model.eval()問題

最近在寫程式碼時遇到一個問題,原本訓練好的模型,載入進來進行inference準確率直接掉了5個點,這簡直不能忍啊~下意識地感知到我肯定又在哪裡寫了bug了~~~於是開始到處排查,從model load到data load,最終在一個被我封裝好的module的犄角旮旯裡找到了問題,於是順便就在這裡總結一下,避免以後再犯。 

對於訓練好的模型載入進來準確率和原先的不符,

比較常見的有兩方面的原因

  • data
  • model.state_dict() 

1) data

資料方面,檢查前後兩次載入的data有沒有發生變化。首先檢查 transforms.Normalize 使用的均值和方差是否和訓練時相同;另外檢查在這個過程中資料是否經過了儲存形式的改變,這有可能會帶來資料精度的變化導致一定的資訊丟失。比如我過用的其中一個資料集,原先將圖片儲存成向量形式,但其對應的是“png”格式的資料(後來在原始檔案中發現了相應的描述。),而我進行了一次data-to-img操作,將向量轉換成了“jpg”形式,這時載入進來便造成了掉點。

2)model.state_dict()

第一方面造成的掉點一般不會太嚴重,第二方面造成的掉點就比較嚴重了,一旦模型的引數載入錯了,那就誤差大了。

如果是引數沒有正確載入進來則比較容易發現,這時準確率非常低,幾乎等於瞎猜。

而我這次遇到的情況是,準確率並不是特別低,只掉了幾個點,檢查了多次,均顯示模型引數已經成功載入了。後來仔細檢視後發現在其中一次呼叫模型進行inference時,忘了寫 ‘model.eval()’,造成了模型的引數發生變化,再次呼叫則出現了掉點。於是又回顧了一下model.eval()和model.train()的具體作用。如下:

model.train() 和 model.eval() 一般在模型訓練和評價的時候會加上這兩句,主要是針對由於model 在訓練時和評價時 Batch Normalization 和 Dropout 方法模式不同:

  • a) model.eval(),不啟用 BatchNormalization 和 Dropout。此時pytorch會自動把BN和DropOut固定住,不會取平均,而是用訓練好的值。不然的話,一旦test的batch_size過小,很容易就會因BN層導致模型performance損失較大;
  • b) model.train() :啟用 BatchNormalization 和 Dropout。 在模型測試階段使用model.train() 讓model變成訓練模式,此時 dropout和batch normalization的操作在訓練q起到防止網路過擬合的問題。

因此,在使用PyTorch進行訓練和測試時一定要記得把範例化的model指定train/eval。

model.eval()   vs   torch.no_grad()

雖然二者都是eval的時候使用,但其作用並不相同:

model.eval() 負責改變batchnorm、dropout的工作方式,如在eval()模式下,dropout是不工作的。

見下方程式碼:

  import torch
  import torch.nn as nn
 
  drop = nn.Dropout()
  x = torch.ones(10)
  
  # Train mode   
  drop.train()
  print(drop(x)) # tensor([2., 2., 0., 2., 2., 2., 2., 0., 0., 2.])   
  
  # Eval mode   
  drop.eval()
  print(drop(x)) # tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

torch.no_grad() 負責關掉梯度計算,節省eval的時間。

只進行inference時,model.eval()是必須使用的,否則會影響結果準確性。 而torch.no_grad()並不是強制的,隻影響執行效率。

總結

以上為個人經驗,希望能給大家一個參考,也希望大家多多支援it145.com。


IT145.com E-mail:sddin#qq.com