首頁 > 科技

66篇論文入選CVPR 2021,商湯的祕籍竟是「大力出奇跡」

2021-06-22 20:59:15

魚羊 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

CVer翹首以盼的CVPR 2021,它來了它來了。

本屆CVPR論文錄用率,較去年略有回升,但競爭依然激烈——在7039篇有效投稿中,最終有1661篇中選,錄用率為23.6%。

繼去年華人一作包攬最佳論文、最佳學生論文、經典論文獎之後,今年的CVPR又延續了「華人主場」的氣質:

單看最佳論文獎候選名單,32篇中就有18篇有華人學者參與,足可謂佔據半壁江山。

圖片

又比如年年霸榜的商湯科技,此番共有66篇論文入選,並且還是學術、產業兩開花的那種,其中還有一篇入選最佳論文候選名單。

入選最佳論文候選名單

照例,我們先來探究一下這份成績單的「質量」。

就先從入選最佳論文候選名單的NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocular看起。

這是一篇三維重建方向的研究。NeuralRecon是首個基於神經網路的單目實時場景三維重建系統。

具體的效果,就像這樣:

圖片

不同於以往基於深度圖估計與融合的方法,NeuralRecon直接基於影象特徵,預測用TSDF(截斷符號距離函數)表示的局部三維表面,並創新地提出了一個聯合TSDF重建與融合框架。

圖片

這樣做的好處是,可以讓網路學習到三維表面在局部和全局上的平滑先驗,使得最終的重建結果準確且具有很好的一致性。

實際上,三維重建是實現沉浸式AR效果的基礎。而NeuralRecon這種基於單個攝像頭拍攝的視訊,實時進行三維重建的方法,就為AR在普通智慧手機上的落地應用打下了理論基礎。

要知道,為了在手機、平板等裝置上實現更好的AR效果,蘋果甚至用上了鐳射雷達這樣的感測器。現在有了NeuralRecon,即使是普通的智慧手機,也能實現更強大的AR功能。

比如基於NeuralRecon重建的場景,實現這樣的效果:

圖片

論文連結:https://arxiv.org/abs/2104.00681

以上,還只是商湯這回在CVPR上展示的學術積累的一個方面。

比如,在與自動駕駛息息相關的點雲方面,商湯同樣有一篇論文中選Oral。

Variational Relational Point Completion Network這篇論文中,研究人員提出了一個兩階段網路,來從殘缺點雲中學習關係型結構屬性,從而恢復可信且高質量的完整點雲形狀。此外,論文還生成了一個豐富的殘缺點雲資料集,可作為點雲補全測試基準。

論文連結:https://arxiv.org/abs/2104.10154

而在影象視訊編碼方面,Checkerboard Context Model for Efficient Learned Image Compression這篇論文創新地提出了棋盤格上下文建模方式,實現了在常用模型上超過40倍的加速。

論文連結:https://arxiv.org/abs/2103.15306

圖片

除此之外,在同期舉辦的挑戰賽中,商湯-南洋理工聯合實驗室(S-Lab)團隊一舉斬獲CVPR 2021 NTIRE視訊理解挑戰賽三項冠軍,包括視訊超解析度、重度壓縮視訊質量增強(固定量化參數,保真度)和重度壓縮視訊質量增強(固定位元率,保真度)賽道。商湯研究院團隊摘得CVPR 2021 ActivityNet時序動作檢測任務弱監督學習賽道冠軍。

一窺商湯應用佈局

話至此處,可見在這屆CVPR上,商湯這個「演算法工廠」仍然延續了全能的風格。

並且在此次入選CVPR的論文中,不僅能看到商湯在各個學術領域的投入,還能一窺從自動駕駛到智慧城市,乃至在手機等諸多應用領域,商湯的技術佈局。

比如提升屏下相機的成像質量:

圖片

論文地址:https://jnjaby.github.io/projects/UDC/

又比如在自動駕駛技術上,針對軌跡預測問題,商湯的研究人員引入Transformer,提出了一種基於堆疊式Transformer的端到端軌跡預測框架mmTransformer。既有效減輕了軌跡預測的複雜性,也確保了多模態的軌跡輸出。

圖片

論文地址:https://decisionforce.github.io/mmTransformer/

而在鐳射雷達的3D目標檢測上,商湯提出了一種名為ST3D的自訓練域適應方法,讓檢測器在用高質量偽標籤訓練的同時,避免對大量簡單樣本過擬合。實驗表明,ST3D在KITTI 3D目標檢測榜上,甚至超過了全監督方法。

論文地址:https://arxiv.org/abs/2103.05346

事實上,圍繞汽車智慧化這個時下最熱的產業命題,商湯近來可謂落子頻繁。

在今年的上海國際車展上,商湯的SenseAuto智慧汽車解決方案正式亮相,而結合SenseAuto展現的能力和商湯的CVPR論文,便可看出商湯佈局自動駕駛的獨特之處——

依靠長期以來在感知技術上的沉澱和積累,一口氣打通車內車外,從艙內對駕駛員的感知,到艙外的自動駕駛系統,形成一站式解決方案。

圖片

另外,說到技術落地,就要提及商湯一直以來關注的另一個重點——長尾問題

同樣,此番也有論文體現。如LVIS Challenge 2019&2020 冠軍團隊的長尾目標檢測演算法Equalization Loss v2,從梯度的角度提出了一種統一的視角來分析長尾問題,並已開源。

論文地址:https://arxiv.org/abs/2012.08548

其實無論是在防火、防水這樣的智慧城市應用場景中,還是在複雜道路行駛的自動駕駛場景中,長尾問題一直是困擾著AI模型的一個技術難點。

圖片

畢竟再怎麼精心調教,看似達到了高精度的模型們,總是會在現實場景中被訓練時未曾遇見的情況困住。

商湯也在多年的實踐中認識到,一對一精細打磨的模型難以應對長尾問題,反而是簡單粗暴地用上大資料+大模型+強算力,「眉毛頭髮一把抓」,更能解決AI商業化落地中的這個老大難問題。

而這,其實也就是商湯為什麼能在CVPR這樣的頂會上多點開花的技術祕籍

商湯祕籍:AI大裝置

無論是SenseAuto還是解決長尾問題的「大力出奇跡」,據商湯聯合創始人林達華透露,幾乎都是在商湯AI大裝置的基礎上進行的。

什麼是AI大裝置?

其實就是商湯在過去幾年中,投資56億打造大資料+大模型+超強算力的人工智慧基礎設施,包括AI算力中心(AIDC)、演算法訓練平臺SenseParrots和資料處理平臺,以及面向社群的開源演算法模型框架OpenMMLab、面向企業的開放演算法模型工廠SenseSpring。

圖片

至於AI大裝置給商湯帶來了什麼,林達華也做了進一步的解釋:

從技術突破這個角度來說,人工智慧大裝置的一個重要意義就是,它為人工智慧的技術研發提供了關鍵的算力支撐在這個基礎設施之上,人工智慧大裝置還提供了豐富的工具和技術元件,能幫助研究員進行快速的試錯,他們能夠快速地實驗很多新的想法。這樣一來,很多有價值的新技術、創新想法就都出來了。

可以說,商湯多年以來在CVPR等頂會上展現的研發、創新能力,在今天沉澱成為了AI大裝置的形態。而反過來,AI大裝置也進一步加速了研發人員實現想法創意、凝結技術成果的過程。

圖片

林達華談到,在現在這個階段,人工智慧的一些簡單的基礎問題都已經解決了,AI的進一步發展,就是要深入到更廣泛的行業裡面。

但這也就意味著,成千上萬的具體問題正在浮出水面,人工智慧如果沿著過去那種「具體問題具體攻破」的路徑接著走,是很難真正更深化地實現落地的。

這個時候,整個行業需要通用性更強的模型。

而像GPT-3、AlphaFold這樣的代表性成果,就指出了一條可行的路徑:大參數模型,能夠帶來完全不一樣的革命性的變化。

這也就是商湯要重金押注AI大裝置的意義所在。

一方面,對於未來10年的人工智慧發展,構建起基礎設施

另一方面,當越來越多的人才投入到AI演算法研發領域,AI大裝置這樣的基礎設施,將隨著技術的開源開放,逐漸從企業內部平臺,演變成面向整個生態、整個社群的具有公共性質的設施。

不僅僅是對商湯而言,對於整個AI產業而言,人才+生態+技術,或許正是推動AI進入工業化發展階段,真正高效率、低成本賦能百業的關鍵所在。

現在,商湯CVPR 2021的成績單,就是對AI大裝置路徑的一次有力驗證。

「大力出奇跡」在未來還能給AI領域帶來怎樣的驚喜,由此看來值得持續期待。

你覺得呢?


IT145.com E-mail:sddin#qq.com