首頁 > 科技

高通CVPR神研究:視訊處理計算量降78%,教卷積層自己「挑畫素」

2021-06-15 19:31:23

蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

影象領域,已經限制不住AI演算法大牛們的身手了。

現在,隨著視訊產業火熱發展,相關演算法也正成為計算機視覺研究的新潮流。

畢竟日常生活中,無論是視訊通話、還是網課直播,都涉及大量的視訊處理演算法

但如果這些演算法效能不高的話,視訊就會出現卡頓、降低解析度的情況,體驗極差。

圖片

(想象視訊通話時,畫面卡成PPT的情況,已經開始生氣了……)

圖片

因此,降低視訊演算法計算量,一直是國內外AI視覺演算法大牛們致力研究的問題。

最近有兩篇CVPR 2021的論文,就引起了視訊圈的不少關注。

它們教演算法模型學會了自己「省算力」,將視訊處理演算法的計算效率提升了幾倍不止,效能也並不下降!

教AI自己省算力,計算量-78%

用卷積神經網路處理視訊,其實是一個計算量巨大的任務。

這裡的「計算量」並非指視訊大小,而是卷積處理影象的方式——將影象完整地「掃」一遍。

但真正的視訊,往往存在大量變化不大的場景(甚至10幀內只有一隻手在動):

圖片

這種情況下,如果還將每個畫素都處理一遍……彷彿已經感受到GPU在燃燒了。

圖片

那麼,能否教AI學會高效「偷懶」,不浪費任何多餘的算力呢?

當然可以,而且有2種方法。

在第一篇論文中,提出了名為Skip-Convolutions(跳躍卷積)的新型卷積層,它能將前後兩幀影象相減,並只對變化部分進行卷積。

沒錯,就像人的眼睛一樣,更容易注意到「動起來的部分」。

圖片

很快啊,計算量一下子從10.2GMACS(每秒10^9次定點乘累加計算)降到了0.4GMACS,不到原來的4%

圖片

注意,不止是上面的姿態估計,這個卷積層適用於任何神經網路演算法,包括光流、語義分割、分類任務等。

在最新的語義分割任務中,相比於經典視訊AI演算法HRNet,這個演算法就將計算量減少了78%,延遲降低65%,效能還不下降。

而第二篇論文采用了一個新方法,讓AI模型「自行控制計算量」。

論文提出了一個名為FrameExit的網路,由多個級聯分類器組成,可以隨著視訊幀的複雜度,來改變模型所用的神經元數量。

在視訊前後幀差異大的時候,AI會用整個模型計算;前後幀差異小的時候,則只用模型的一部分計算。

圖片

也就是說,要是某一幀看起來不需要複雜計算的話,用更小的模型處理就夠了。

相比於其他模型,這種方法最高甚至能提升5倍的效能。

同時,神經網路檢測的精確度(mAP)不僅沒有下降,甚至還增加了!

圖片

目前,第二篇論文已經入選CVPR 2021的Oral。

重要的是,這兩篇論文背後的單位,竟然都是高通,一個與所有手機使用者息息相關的公司。

看來我們又能用上更多效能更棒的手機視訊應用了。

手機視訊應用,效能超級加倍

這兩項AI視訊感知技術,高通已經在研究落地了。

不得不說,即使是落地的方向,也都是我們平時手機視訊應用的剛需。

圖片

除了能優化視訊處理演算法以外,這類感知技術還能讓更多AI視訊模型被用到手機上。

首先是針對視訊處理演算法的優化。

例如,對於我們常見的線上視訊會議、網課等視訊通話場景來說,如果視訊處理演算法模型不好,實時通話的質量就會非常差。

甚至可能因此出現卡頓的情況,然後直接掉幀,比語音通話的觀感還差。

圖片

但如果用上這類視訊感知技術,AI就能對視訊中的部分畫素進行智慧處理,極大地降低視訊通話所需的影象計算量,讓通話過程變得更流暢。

又例如,我們的手機在對視訊檔案進行智慧剪輯處理時,往往會出現耗電量大、檔案載入慢的問題。

但如果用這類演算法對視訊剪輯應用進行處理,不僅能優化演算法本身,還能讓剪輯過程變得更加絲滑。

圖片

事實上,也正是由於這類視訊感知演算法,讓更多AI模型能被應用到手機中。

小米11為例,它的其中一項視訊編輯功能,是對視訊中的一部分畫面進行時間暫停,另一部分則保持播放,就像一個人對另一個人施加了「時間停止」魔法。

這類視訊演算法模型,此前的計算量非常大,原本在論文中要用GPU才能實現。現在用手機就能實現「時間停止」,還是實時的:

圖片

不止是一段視訊,就連其中的特殊幀也能被暫停,並做成一段很有意思的視訊:

圖片

又例如,各大AI視覺論文中常見的影象增強演算法,以往主要是針對拍照實現,無法被應用到視訊中。

但現在,由於視訊計算量的下降,它已經能用在實時視訊拍攝中了,甚至包括視訊會議這樣的場景。

OPPO Find X3 Pro的夜景攝影為例,正常拍攝下逆光、或是夜景的視訊效果,在AI的計算下也能將臉看得清清楚楚:

圖片

甚至就連我們常見的視訊智慧穩定、視訊插幀,之所以能應用到手機視訊上,也離不開視訊感知演算法對智慧幀間對比、超解析度演算法等技術的加持。

例如,這是vivo X60 Pro+的視訊智慧穩定效果:

圖片

事實上,上面這些已經被應用到手機中的AI黑科技,背後都有著驍龍888的算力和處理效能支援。

也就是說,高通已經將不少AI視訊處理演算法,從「幾張紙」的論文變成了實際的手機視訊應用。

「隱形」AI黑科技,身邊其實就不少

不止是手機應用,在這些演算法的加持下不斷「進階」。

在智慧醫療、智慧工廠、XR等「未來」場景逐漸成為現實的背後,同樣有著無數的AI黑科技。

以我們常見的VR裝置為例,由於有了AI演算法的加成,攝像頭也能實現由內向外更精準的追蹤。

圖片

結合5G進行視訊傳輸後,有了AI加持的VR裝置,不僅能給孩子們進行科普教育、還能讓醫生能夠給病患更細緻地講解病情。

圖片

又例如,現在出門去醫院看病,只需要一個碼,就能將包括病案資訊、診療進度、最新診療結果在內的相關病情資訊彙集在碼中。

利用東大整合研發的「小碼哥」進行掃描後,醫生就能快速獲取全部資訊,及時進行診斷。

圖片

同時,物聯網醫療裝置和AI資料分析還能簡化健康監控,建立一個真正「互聯」的醫院,讓患者也能在不同地區、時間及時檢視病情結果。

圖片

又例如,利用AI+邊緣計算+5G,就能做出替代人眼進行質量檢測和瑕疵識別的智慧化數字生產線,讓工廠節省大量人力成本。

不僅如此,工業搬運機器人也能通過5G+AI,對攝像頭所收集的視訊流資料在雲端或邊緣側進行智慧分析,從而實現遠端操控。

圖片

但使用者並不需要了解其中的每一個細節。

因為,高通這樣的前沿科技公司,正將這些技術難點一一攻克。

圖片

然後,再以產品的方式呈現出來,讓每一個使用者都能無差別地享受最新科技突破。

黑科技有多複雜?

那不是大多數使用者需要考慮的。


IT145.com E-mail:sddin#qq.com