首頁 > 軟體

OpenCV影象折積之cv.filter2D()函數詳解

2022-09-14 22:02:54

API

照例,我們搬一下官網的 API:

C++

void cv::filter2D(InputArray   src,
                  OutputArray  dst,
                  int          ddepth,
                  InputArray   kernel,
                  Point        anchor=Point(-1, -1),
                  double       delta=0,
                  int          borderType=BORDER_DEFAULT
                  )

Python

dst=cv.filter2D(src, ddepth, kernel[, dst[, anchor[, delta[, borderType]]]])

函數詳解

這個函數一般是用於影象的折積,但 OpenCV 檔案裡說這個函數不完全等於影象折積。這一點說實話我看到的時候也震驚到了,我一直是拿它當折積來用的。但是仔細考慮後,我認為這一點完全是定義上的差異,日常用的影象折積定義和這個函數的功能實際上是一致的。

HelloWorld

直接上手做往往能給人最直觀的感受。因此,最開始這裡我要放一個使用這個函數的最小化程式,可以稱之為該函數的 hello world 程式。這個程式跑通了,就可以很方便地嘗試其他引數的作用了。

# HelloWrold Program of cv.filter2D
# by Aling on 2021/1/18
import numpy as np
import cv2 as cv

def main():
    img = cv.imread("你想讀的圖片")
    
    # 定義折積核
    kernel = np.ones((10, 10)) / 100
    
    # 執行濾波
    avg_filtered = cv.filter2D(img, -1, kernel)

    # 顯示圖片
    cv.imshow("Average filtered", avg_filtered)
    cv.waitKey(0)
    cv.destroyAllWindows()

if __name__ == "__main__":
    main()

這個程式讀取一張圖片,並將其通過10 x 10 的折積核作均值濾波並顯示結果。

引數詳解

同樣的,這裡把各個引數打一張表:

引數型別是否必須指定(預設值)具體含義
srcnumpy.ndarray原影象
ddepthint目標影象深度(指資料型別)
kernelnumpy.ndarray折積核
anchortuple否(折積核中心)折積錨點
delta是資料類就行否(0)偏移量,折積結果要加上這個數位
borderTypeint(實際上是 enum 類)否(cv.BORDER_DEFALUT)邊緣型別

src

這個引數沒什麼好說的,就是原影象。它可以是任何色彩模式,這就意味著如果你把原本送到這個函數裡的圖片從黑白變成了彩色(單通道變成了 3 通道),你並不需要更改其他引數。本身,對多通道的影象,折積就是以通道為單位進行的。

ddepth

這個引數有點費解了。大部分情況下不需要管它是幹嘛的,直接把它設成 -1 就沒有任何問題。

引數名 ddepth ,英文是 desired depth,即期望深度。什麼意思呢?我們來看它的可能取值表(來自這裡):

輸入深度(src.depth())期望深度(ddepth
CV_8U-1/CV_16S/CV_32F/CV_64F
CV_16U/CV_16S-1/CV_32F/CV_64F
CV_32F-1/CV_32F/CV_64F
CV_64F-1/CV_64F

這個表裡的一大串 CV 打頭的符號到底是什麼意思呢?實際上這些符號的末尾字母對應了資料型別:

U == Unsigned int  # 無符號整型
S == Signed int    # 有符號整型
F == Float         # 浮點型

中間的數位很顯然代表了資料型別所佔用的空間(bit)。所以,所謂深度,其實指的是資料型別

那就好說了,你會發現這裡其實是規定了輸出資料的型別,包括每個通道的每個畫素佔用多少空間。輸出資料的型別必須根據上面的表格中輸入對應的型別指定。這裡 -1 表示輸出型別和輸入相同

不過,值得注意的是,似乎有些資料型別無法通過 cv2.imshow 正常顯示,可以用 matplotlib.pyplot.imshow 來代替。

但是,還是注意,沒有關於資料型別的特別要求時,這個功能是不需要的,取 -1 即可。

kernel & anchor

這兩個引數都是折積相關的,因此放在一節裡面講述。接下來的內容假設你已經瞭解了影象折積

這裡,kernel 很顯然表示的是折積核,這是一個 numpy.ndarray 型別的矩陣。這個矩陣的生成可以用 numpy 自帶的函數,但是對於複雜一些的折積核,OpenCV 內部的一些函數顯然更合適。如 getStructuringElementgetGaussianKernel,前者用於獲取特定形狀的核,後者則是高斯核生生成器(不過要注意生成的是一個向量)。

# 方法一範例
kernel = cv.getStructuringElement(cv.MORPH_RECT, (11, 11))

# 方法二範例
vector = cv.getGaussianKernel(11, -1)
kernel = vector @ vector.T

anchor 則表示錨點。什麼叫錨點呢?看下面這張圖:

可以說,錨點 anchor 決定了折積核相對於生成目標點的位置。雖然錨點是相對於折積核來定義的,但是折積的過程更像是通過錨點去尋找折積核。遍歷影象中的每一個畫素,以每一個畫素為錨點,按照相對位置生成折積範圍,和折積核對應元素相乘再求和得到目標影象中對應畫素的值。可以用公式表示成:

這實際上就是一般的影象折積計算方法。OpenCV 檔案裡面敘述的折積定義則是需要將折積核圍繞錨點對稱變換,再用上面的公式計算。這種方法更接近折積原始的定義,但是對影象的折積一般的應用而言(濾波、深度學習)這兩種定義實際上沒有什麼區別。、

錨點用一個元組指定,是相對於折積核左上角的座標,從 0 開始

# 替換掉 HelloWorld 程式的對應行。
avg_filtered = cv.filter2D(img, -1, kernel, (1, 2))

delta

這個引數的存在其實有些費解,它的效果很簡單,就是把折積的結果加上一個固定的數位。直觀上將,它將整個影象變亮或者變暗了。從應用上來說,它實際上將折積過程擴充套件成了一般的線性運算( ∗ * ∗ 表示折積):

這個線性運算可以將結果限定在某一符合要求的範圍內(比如大於 0),而且不會阻斷梯度的傳遞。

borderType

這個引數更改的是 border 的生成方式。這個 border,也就是邊緣,是在靠近邊緣的部分折積時用到的,參考上面那張圖。無論 anchor 是什麼,總有些邊緣上的點對應的折積範圍無法完全落在原圖內,這就需要對原圖進行擴充套件。擴充套件的方法就是我們這裡引數的含義。

這個引數取值是 OpenCV 裡的 cv::BorderTypes enum 類定義的值,其可能取值及其對於邊緣的作用結果如下圖所示(圖片來自 OpenCV Python 教學):

要注意幾點:

  • cv.BORDER_WARP 在這個函數裡面是不支援的;
  • cv.BORDER_CONSTANT 會將邊緣取為 0(黑色),而且沒法改,因為原函數並沒有留出相關的介面。

擴充套件——濾波相關函數

影象濾波是一個很常用的功能,對此,OpenCV 也定義了很多函數。這裡介紹的 cv.filter2D 是這些函數中可控性最高的,因為你可以用自定義的核進行折積。但是一些常用的濾波,我們可以不必自己定義相應的核,直接用定義好的函數就可以了。

均值濾波

dst = cv.blur(img, (11, 11))

# 等效於:
dst = cv.filter2D(img, -1, np.ones((11, 11))/11**2)

高斯濾波

dst = cv.GaussianBlur(img, (11, 11), -1)

# 等效於
vector = cv.getGaussianKernel(11, -1)
kernel = vector @ vector.T
dst = cv.filter2D(img, -1, kernel)

中值濾波

dst = cv.medianBlur(img, 11)

注意中值濾波是取中位數作為目標值,是一個非線性濾波子,因此無法通過線性濾波的 cv.filter2D 來等效實現。

參考連結

總結

到此這篇關於OpenCV影象折積之cv.filter2D()函數詳解的文章就介紹到這了,更多相關OpenCV影象折積cv.filter2D()函數內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com