首頁 > 軟體

Pytorch中的影象增廣transforms類和預處理方法

2023-04-02 06:00:59

1.隨機翻轉(水平和垂直)

torchvision.transforms.RandomVerticalFlip函數和torchvision.transforms.RandomHorizontalFlip函數是兩個可以實現資料增強的函數,可以將輸入的影象進行隨機垂直翻轉和隨機水平翻轉,從而增加資料集的多樣性。

具體來說,torchvision.transforms.RandomVerticalFlip函數可以將輸入影象在垂直方向上進行隨機翻轉,而torchvision.transforms.RandomHorizontalFlip函數可以將輸入影象在水平方向上進行隨機翻轉。這兩個函數都可以通過設定引數來控制翻轉的概率。

下面是這兩個函數的使用方法:

import torch
import torchvision.transforms as transforms

# 定義隨機垂直翻轉和隨機水平翻轉的概率
vflip_probability = 0.5  # 隨機垂直翻轉的概率
hflip_probability = 0.5  # 隨機水平翻轉的概率

# 定義影象變換
transform = transforms.Compose([
    transforms.RandomVerticalFlip(p=vflip_probability),
    transforms.RandomHorizontalFlip(p=hflip_probability)
])

在上述程式碼中,我們首先通過transforms.Compose函數定義了一個影象變換的序列,其中包含了隨機垂直翻轉和隨機水平翻轉兩個操作。

2.隨機裁剪縮放

torchvision.transforms.RandomResizedCrop函數可以進行隨機裁剪和縮放,從而增加資料集的多樣性。在實際使用中,這個函數有許多可調引數,下面是一個更加完整的介紹:

transforms.RandomResizedCrop(
    size,       # 輸出影象的大小
    scale=(0.08, 1.0),  # 縮放範圍,將輸入影象按照該範圍內的隨機比例縮放
    ratio=(3.0/4.0, 4.0/3.0),   # 長寬比範圍,將輸入影象按照該範圍內的隨機比例進行裁剪
    interpolation=2     # 縮放時使用的插值方法,可選1、2、3、4中的一個,預設為PIL.Image.BILINEAR
)

下面是各個引數的詳細介紹:

  • size:輸出影象的大小,可以是一個整數,表示輸出影象的邊長,或者是一個二元組,表示輸出影象的寬和高。例如,如果設定size=224,則輸出影象的大小為 224 × 224 224times224 224×224;如果設定size=(256,192),則輸出影象的大小為 256 × 192 256times192 256×192。
  • scale:縮放範圍,將輸入影象按照該範圍內的隨機比例縮放。該引數是一個二元組,表示縮放比例的範圍,例如(0.08,1.0)表示將輸入影象縮放到原來的 0.08 0.08 0.08到 1.0 1.0 1.0倍之間的隨機比例。預設值為(0.08, 1.0)。
  • ratio:長寬比範圍,將輸入影象按照該範圍內的隨機比例進行裁剪。該引數是一個二元組,表示長寬比的範圍,例如(3.0/4.0,4.0/3.0)表示將輸入影象按照寬高比在 3 / 4 3/4 3/4到 4 / 3 4/3 4/3之間的隨機比例進行裁剪。預設值為(3.0/4.0, 4.0/3.0)。
  • interpolation:縮放時使用的插值方法,可選1、2、3、4中的一個,分別表示PIL.Image.NEAREST、PIL.Image.BILINEAR、PIL.Image.BICUBIC和PIL.Image.LANCZOS。預設值為PIL.Image.BILINEAR。

3.隨機修改顏色(顏色抖動)

在PyTorch中,torchvision.transforms.RandomColorJitter函數可以用於對影象進行隨機顏色抖動,增加資料集的多樣性。這個函數可以隨機地改變影象的亮度、對比度、飽和度和色相,並且還可以隨機地進行灰度化操作。下面是該函數的引數:

transforms.RandomColorJitter(
    brightness=0.1,    # 亮度調整的強度,預設值為0.1
    contrast=0.1,      # 對比度調整的強度,預設值為0.1
    saturation=0.1,    # 飽和度調整的強度,預設值為0.1
    hue=0.1,           # 色相調整的強度,預設值為0.1
    p=0.5,             # 執行顏色抖動的概率,預設值為0.5
)

下面是各個引數的詳細介紹:

  • brightness:亮度調整的強度。預設值為0.1。如果設定為0,則不進行亮度調整。
  • contrast:對比度調整的強度。預設值為0.1。如果設定為0,則不進行對比度調整。
  • saturation:飽和度調整的強度。預設值為0.1。如果設定為0,則不進行飽和度調整。
  • hue:色相調整的強度。預設值為0.1。如果設定為0,則不進行色相調整。
  • p:執行顏色抖動的概率。預設值為0.5。如果設定為1,則每個影象都會執行顏色抖動。

4.將影象轉化為張量

在PyTorch的torchvision庫中,ToTensor函數是一種將PIL Image或numpy.ndarray格式的影象轉換為PyTorch Tensor格式的函數。它可以將影象中的畫素值轉換為0到1之間的標準化數值,並調整影象的通道順序,使其符合PyTorch模型的輸入要求。

ToTensor函數的使用方法如下:

from torchvision.transforms import ToTensor
transform = ToTensor()

一般來說,在使用Compose組合在一起的一組transform中,ToTensor函數應該放在最後一個位置,以便將影象轉換為PyTorch Tensor格式的影象,並確保其他所有的transform都在Tensor轉換之前完成。

5.標準化操作

在PyTorch的torchvision.transforms庫中,Normalize函數是一種對影象進行標準化處理的函數。它可以將影象中的畫素值進行歸一化處理,使得影象的畫素值均值為0,標準差為1,從而增強模型的收斂速度和泛化效能。

Normalize函數的使用方法如下:

from torchvision.transforms import Normalize
transform = Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

在上述程式碼中,我們首先匯入了Normalize函數,並建立了一個名為transform的Normalize物件。其中,meanstd引數分別代表影象各通道畫素值的平均值和標準差。在這裡,我們以ImageNet資料集的影象均值和標準差為例進行了設定。

需要注意的是,Normalize函數應該在影象轉換為PyTorch Tensor格式之後應用,即在ToTensor之後。這是因為Normalize需要對每個通道的畫素值進行標準化,而ToTensor函數將影象中的畫素值轉換為PyTorch Tensor格式後,每個通道的畫素值將儲存在不同的維度上,因此才需要在ToTensor之後進行標準化處理。

6.同時結合多種增廣方法

在PyTorch的torchvision庫中,Compose函數是一種將多個資料增強操作組合在一起的函數。它可以將多個資料增強操作按照一定的順序組合在一起,並將它們作為一個整體應用於資料集中的每個樣本。Compose函數可以幫助我們方便地實現複雜的資料增強操作,同時也可以使我們的程式碼更加簡潔和易讀。

Compose函數的使用方法如下:

from torchvision.transforms import Compose
from torchvision.transforms import RandomCrop, RandomHorizontalFlip, ToTensor

transform = Compose([
    RandomCrop(32),
    RandomHorizontalFlip(),
    ToTensor()
])

在上述程式碼中,我們首先匯入了Compose函數和其他一些資料增強操作,然後建立了一個名為transform的Compose物件。該Compose物件由三個資料增強操作組成:隨機裁剪(RandomCrop),隨機水平翻轉(RandomHorizontalFlip)和轉換為Tensor格式(ToTensor)。

到此這篇關於Pytorch中的影象增廣和預處理方法(transforms類)的文章就介紹到這了,更多相關Pytorch影象增廣和預處理內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com