蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI影象領域,已經限制不住AI演算法大牛們的身手了。現在,隨著視訊產業火熱發展,相關演算法也正成為計算機視覺研究的新潮流。畢竟日
2021-06-15 19:31:23
蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
影象領域,已經限制不住AI演算法大牛們的身手了。
現在,隨著視訊產業火熱發展,相關演算法也正成為計算機視覺研究的新潮流。
畢竟日常生活中,無論是視訊通話、還是網課直播,都涉及大量的視訊處理演算法。
但如果這些演算法效能不高的話,視訊就會出現卡頓、降低解析度的情況,體驗極差。
(想象視訊通話時,畫面卡成PPT的情況,已經開始生氣了……)
因此,降低視訊演算法計算量,一直是國內外AI視覺演算法大牛們致力研究的問題。
最近有兩篇CVPR 2021的論文,就引起了視訊圈的不少關注。
它們教演算法模型學會了自己「省算力」,將視訊處理演算法的計算效率提升了幾倍不止,效能也並不下降!
教AI自己省算力,計算量-78%
用卷積神經網路處理視訊,其實是一個計算量巨大的任務。
這裡的「計算量」並非指視訊大小,而是卷積處理影象的方式——將影象完整地「掃」一遍。
但真正的視訊,往往存在大量變化不大的場景(甚至10幀內只有一隻手在動):
這種情況下,如果還將每個畫素都處理一遍……彷彿已經感受到GPU在燃燒了。
那麼,能否教AI學會高效「偷懶」,不浪費任何多餘的算力呢?
當然可以,而且有2種方法。
在第一篇論文中,提出了名為Skip-Convolutions(跳躍卷積)的新型卷積層,它能將前後兩幀影象相減,並只對變化部分進行卷積。
沒錯,就像人的眼睛一樣,更容易注意到「動起來的部分」。
很快啊,計算量一下子從10.2GMACS(每秒10^9次定點乘累加計算)降到了0.4GMACS,不到原來的4%!
注意,不止是上面的姿態估計,這個卷積層適用於任何神經網路演算法,包括光流、語義分割、分類任務等。
在最新的語義分割任務中,相比於經典視訊AI演算法HRNet,這個演算法就將計算量減少了78%,延遲降低65%,效能還不下降。
而第二篇論文采用了一個新方法,讓AI模型「自行控制計算量」。
論文提出了一個名為FrameExit的網路,由多個級聯分類器組成,可以隨著視訊幀的複雜度,來改變模型所用的神經元數量。
在視訊前後幀差異大的時候,AI會用整個模型計算;前後幀差異小的時候,則只用模型的一部分計算。
也就是說,要是某一幀看起來不需要複雜計算的話,用更小的模型處理就夠了。
相比於其他模型,這種方法最高甚至能提升5倍的效能。
同時,神經網路檢測的精確度(mAP)不僅沒有下降,甚至還增加了!
目前,第二篇論文已經入選CVPR 2021的Oral。
重要的是,這兩篇論文背後的單位,竟然都是高通,一個與所有手機使用者息息相關的公司。
看來我們又能用上更多效能更棒的手機視訊應用了。
手機視訊應用,效能超級加倍
這兩項AI視訊感知技術,高通已經在研究落地了。
不得不說,即使是落地的方向,也都是我們平時手機視訊應用的剛需。
除了能優化視訊處理演算法以外,這類感知技術還能讓更多AI視訊模型被用到手機上。
首先是針對視訊處理演算法的優化。
例如,對於我們常見的線上視訊會議、網課等視訊通話場景來說,如果視訊處理演算法模型不好,實時通話的質量就會非常差。
甚至可能因此出現卡頓的情況,然後直接掉幀,比語音通話的觀感還差。
但如果用上這類視訊感知技術,AI就能對視訊中的部分畫素進行智慧處理,極大地降低視訊通話所需的影象計算量,讓通話過程變得更流暢。
又例如,我們的手機在對視訊檔案進行智慧剪輯處理時,往往會出現耗電量大、檔案載入慢的問題。
但如果用這類演算法對視訊剪輯應用進行處理,不僅能優化演算法本身,還能讓剪輯過程變得更加絲滑。
事實上,也正是由於這類視訊感知演算法,讓更多AI模型能被應用到手機中。
以小米11為例,它的其中一項視訊編輯功能,是對視訊中的一部分畫面進行時間暫停,另一部分則保持播放,就像一個人對另一個人施加了「時間停止」魔法。
這類視訊演算法模型,此前的計算量非常大,原本在論文中要用GPU才能實現。現在用手機就能實現「時間停止」,還是實時的:
不止是一段視訊,就連其中的特殊幀也能被暫停,並做成一段很有意思的視訊:
又例如,各大AI視覺論文中常見的影象增強演算法,以往主要是針對拍照實現,無法被應用到視訊中。
但現在,由於視訊計算量的下降,它已經能用在實時視訊拍攝中了,甚至包括視訊會議這樣的場景。
以OPPO Find X3 Pro的夜景攝影為例,正常拍攝下逆光、或是夜景的視訊效果,在AI的計算下也能將臉看得清清楚楚:
甚至就連我們常見的視訊智慧穩定、視訊插幀,之所以能應用到手機視訊上,也離不開視訊感知演算法對智慧幀間對比、超解析度演算法等技術的加持。
例如,這是vivo X60 Pro+的視訊智慧穩定效果:
事實上,上面這些已經被應用到手機中的AI黑科技,背後都有著驍龍888的算力和處理效能支援。
也就是說,高通已經將不少AI視訊處理演算法,從「幾張紙」的論文變成了實際的手機視訊應用。
「隱形」AI黑科技,身邊其實就不少
不止是手機應用,在這些演算法的加持下不斷「進階」。
在智慧醫療、智慧工廠、XR等「未來」場景逐漸成為現實的背後,同樣有著無數的AI黑科技。
以我們常見的VR裝置為例,由於有了AI演算法的加成,攝像頭也能實現由內向外更精準的追蹤。
結合5G進行視訊傳輸後,有了AI加持的VR裝置,不僅能給孩子們進行科普教育、還能讓醫生能夠給病患更細緻地講解病情。
又例如,現在出門去醫院看病,只需要一個碼,就能將包括病案資訊、診療進度、最新診療結果在內的相關病情資訊彙集在碼中。
利用東大整合研發的「小碼哥」進行掃描後,醫生就能快速獲取全部資訊,及時進行診斷。
同時,物聯網醫療裝置和AI資料分析還能簡化健康監控,建立一個真正「互聯」的醫院,讓患者也能在不同地區、時間及時檢視病情結果。
又例如,利用AI+邊緣計算+5G,就能做出替代人眼進行質量檢測和瑕疵識別的智慧化數字生產線,讓工廠節省大量人力成本。
不僅如此,工業搬運機器人也能通過5G+AI,對攝像頭所收集的視訊流資料在雲端或邊緣側進行智慧分析,從而實現遠端操控。
但使用者並不需要了解其中的每一個細節。
因為,高通這樣的前沿科技公司,正將這些技術難點一一攻克。
然後,再以產品的方式呈現出來,讓每一個使用者都能無差別地享受最新科技突破。
黑科技有多複雜?
那不是大多數使用者需要考慮的。
相關文章
蕭簫 發自 凹非寺 量子位 報道 | 公眾號 QbitAI影象領域,已經限制不住AI演算法大牛們的身手了。現在,隨著視訊產業火熱發展,相關演算法也正成為計算機視覺研究的新潮流。畢竟日
2021-06-15 19:31:23
6月15日訊息,BOSS直聘研究院釋出了《2021應屆生就業趨勢報告》,內容顯示,相較2020年,應屆生求職招聘市場明顯回暖。報告指出,截至5月,2021年應屆生招聘規模同比增幅達到52.5%。隨
2021-06-15 19:30:49
日前,中國移動集中網路雲資源池三期工程計算型伺服器採購結果出爐。結果顯示,這份21億的大訂單被中興通訊、浪潮、紫光華山以及烽火通訊四家企業瓜分,華為則顆粒無收。事實上,華
2021-06-15 19:30:20
毅力號登陸火星啦!Mars Mission 2020去年適逢火星衝,美國、中國和阿拉伯聯合大公國皆有火星探測計劃,今年2 月各火星任務陸續抵達。火星探測車「毅力號Perseverance」在 2020
2021-06-15 19:12:37
作為最重要的電商狂歡節之一,京東618是上半年入手各類數碼產品的好機會,其中手機類產品更是迎來2021年的首次大促,大量新品和大幅度的優惠,更是逐漸將618推向高潮。手遊已經
2021-06-15 19:11:53
什麼是快樂星球?相信每個人心目中都有不同的答案。而對於以完美視覺效果為終極追求的影像工業從業者來說,怎麼達到影像工業從業者的快樂星球?未來影像工業者的快樂星球到底是什
2021-06-15 19:11:19