首頁 > 科技

高通CVPR神研究：視訊處理計算量降78%，教卷積層自己「挑畫素」

2021-06-15 19:31:23

蕭簫發自凹非寺量子位報道 | 公眾號 QbitAI

影象領域，已經限制不住AI演算法大牛們的身手了。

現在，隨著視訊產業火熱發展，相關演算法也正成為計算機視覺研究的新潮流。

畢竟日常生活中，無論是視訊通話、還是網課直播，都涉及大量的視訊處理演算法。

但如果這些演算法效能不高的話，視訊就會出現卡頓、降低解析度的情況，體驗極差。

圖片

（想象視訊通話時，畫面卡成PPT的情況，已經開始生氣了……）

圖片

因此，降低視訊演算法計算量，一直是國內外AI視覺演算法大牛們致力研究的問題。

最近有兩篇CVPR 2021的論文，就引起了視訊圈的不少關注。

它們教演算法模型學會了自己「省算力」，將視訊處理演算法的計算效率提升了幾倍不止，效能也並不下降！

教AI自己省算力，計算量-78%

用卷積神經網路處理視訊，其實是一個計算量巨大的任務。

這裡的「計算量」並非指視訊大小，而是卷積處理影象的方式——將影象完整地「掃」一遍。

但真正的視訊，往往存在大量變化不大的場景（甚至10幀內只有一隻手在動）：

圖片

這種情況下，如果還將每個畫素都處理一遍……彷彿已經感受到GPU在燃燒了。

圖片

那麼，能否教AI學會高效「偷懶」，不浪費任何多餘的算力呢？

當然可以，而且有2種方法。

在第一篇論文中，提出了名為Skip-Convolutions（跳躍卷積）的新型卷積層，它能將前後兩幀影象相減，並只對變化部分進行卷積。

沒錯，就像人的眼睛一樣，更容易注意到「動起來的部分」。

圖片

很快啊，計算量一下子從10.2GMACS（每秒10^9次定點乘累加計算）降到了0.4GMACS，不到原來的4%！

圖片

注意，不止是上面的姿態估計，這個卷積層適用於任何神經網路演算法，包括光流、語義分割、分類任務等。

在最新的語義分割任務中，相比於經典視訊AI演算法HRNet，這個演算法就將計算量減少了78%，延遲降低65%，效能還不下降。

而第二篇論文采用了一個新方法，讓AI模型「自行控制計算量」。

論文提出了一個名為FrameExit的網路，由多個級聯分類器組成，可以隨著視訊幀的複雜度，來改變模型所用的神經元數量。

在視訊前後幀差異大的時候，AI會用整個模型計算；前後幀差異小的時候，則只用模型的一部分計算。

圖片

也就是說，要是某一幀看起來不需要複雜計算的話，用更小的模型處理就夠了。

相比於其他模型，這種方法最高甚至能提升5倍的效能。

同時，神經網路檢測的精確度（mAP）不僅沒有下降，甚至還增加了！

圖片

目前，第二篇論文已經入選CVPR 2021的Oral。

重要的是，這兩篇論文背後的單位，竟然都是高通，一個與所有手機使用者息息相關的公司。

看來我們又能用上更多效能更棒的手機視訊應用了。

手機視訊應用，效能超級加倍

這兩項AI視訊感知技術，高通已經在研究落地了。

不得不說，即使是落地的方向，也都是我們平時手機視訊應用的剛需。

圖片

除了能優化視訊處理演算法以外，這類感知技術還能讓更多AI視訊模型被用到手機上。

首先是針對視訊處理演算法的優化。

例如，對於我們常見的線上視訊會議、網課等視訊通話場景來說，如果視訊處理演算法模型不好，實時通話的質量就會非常差。

甚至可能因此出現卡頓的情況，然後直接掉幀，比語音通話的觀感還差。

圖片

但如果用上這類視訊感知技術，AI就能對視訊中的部分畫素進行智慧處理，極大地降低視訊通話所需的影象計算量，讓通話過程變得更流暢。

又例如，我們的手機在對視訊檔案進行智慧剪輯處理時，往往會出現耗電量大、檔案載入慢的問題。

但如果用這類演算法對視訊剪輯應用進行處理，不僅能優化演算法本身，還能讓剪輯過程變得更加絲滑。

圖片

事實上，也正是由於這類視訊感知演算法，讓更多AI模型能被應用到手機中。

以小米11為例，它的其中一項視訊編輯功能，是對視訊中的一部分畫面進行時間暫停，另一部分則保持播放，就像一個人對另一個人施加了「時間停止」魔法。

這類視訊演算法模型，此前的計算量非常大，原本在論文中要用GPU才能實現。現在用手機就能實現「時間停止」，還是實時的：

圖片

不止是一段視訊，就連其中的特殊幀也能被暫停，並做成一段很有意思的視訊：

圖片

又例如，各大AI視覺論文中常見的影象增強演算法，以往主要是針對拍照實現，無法被應用到視訊中。

但現在，由於視訊計算量的下降，它已經能用在實時視訊拍攝中了，甚至包括視訊會議這樣的場景。

以OPPO Find X3 Pro的夜景攝影為例，正常拍攝下逆光、或是夜景的視訊效果，在AI的計算下也能將臉看得清清楚楚：

圖片

甚至就連我們常見的視訊智慧穩定、視訊插幀，之所以能應用到手機視訊上，也離不開視訊感知演算法對智慧幀間對比、超解析度演算法等技術的加持。

例如，這是vivo X60 Pro+的視訊智慧穩定效果：

圖片

事實上，上面這些已經被應用到手機中的AI黑科技，背後都有著驍龍888的算力和處理效能支援。

也就是說，高通已經將不少AI視訊處理演算法，從「幾張紙」的論文變成了實際的手機視訊應用。

「隱形」AI黑科技，身邊其實就不少

不止是手機應用，在這些演算法的加持下不斷「進階」。

在智慧醫療、智慧工廠、XR等「未來」場景逐漸成為現實的背後，同樣有著無數的AI黑科技。

以我們常見的VR裝置為例，由於有了AI演算法的加成，攝像頭也能實現由內向外更精準的追蹤。

圖片

結合5G進行視訊傳輸後，有了AI加持的VR裝置，不僅能給孩子們進行科普教育、還能讓醫生能夠給病患更細緻地講解病情。

圖片

又例如，現在出門去醫院看病，只需要一個碼，就能將包括病案資訊、診療進度、最新診療結果在內的相關病情資訊彙集在碼中。

利用東大整合研發的「小碼哥」進行掃描後，醫生就能快速獲取全部資訊，及時進行診斷。

圖片

同時，物聯網醫療裝置和AI資料分析還能簡化健康監控，建立一個真正「互聯」的醫院，讓患者也能在不同地區、時間及時檢視病情結果。

圖片

又例如，利用AI+邊緣計算+5G，就能做出替代人眼進行質量檢測和瑕疵識別的智慧化數字生產線，讓工廠節省大量人力成本。

不僅如此，工業搬運機器人也能通過5G+AI，對攝像頭所收集的視訊流資料在雲端或邊緣側進行智慧分析，從而實現遠端操控。

圖片

但使用者並不需要了解其中的每一個細節。

因為，高通這樣的前沿科技公司，正將這些技術難點一一攻克。

圖片

然後，再以產品的方式呈現出來，讓每一個使用者都能無差別地享受最新科技突破。

黑科技有多複雜？

那不是大多數使用者需要考慮的。

IT145.com E-mail:sddin#qq.com