66篇論文入選CVPR 2021，商湯的祕籍竟是「大力出奇跡」

2021-06-22 20:59:15

魚羊發自凹非寺量子位報道 | 公眾號 QbitAI

CVer翹首以盼的CVPR 2021，它來了它來了。

本屆CVPR論文錄用率，較去年略有回升，但競爭依然激烈——在7039篇有效投稿中，最終有1661篇中選，錄用率為23.6%。

繼去年華人一作包攬最佳論文、最佳學生論文、經典論文獎之後，今年的CVPR又延續了「華人主場」的氣質：

單看最佳論文獎候選名單，32篇中就有18篇有華人學者參與，足可謂佔據半壁江山。

圖片

又比如年年霸榜的商湯科技，此番共有66篇論文入選，並且還是學術、產業兩開花的那種，其中還有一篇入選最佳論文候選名單。

入選最佳論文候選名單

照例，我們先來探究一下這份成績單的「質量」。

就先從入選最佳論文候選名單的NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocular看起。

這是一篇三維重建方向的研究。NeuralRecon是首個基於神經網路的單目實時場景三維重建系統。

具體的效果，就像這樣：

圖片

不同於以往基於深度圖估計與融合的方法，NeuralRecon直接基於影象特徵，預測用TSDF（截斷符號距離函數）表示的局部三維表面，並創新地提出了一個聯合TSDF重建與融合框架。

圖片

這樣做的好處是，可以讓網路學習到三維表面在局部和全局上的平滑先驗，使得最終的重建結果準確且具有很好的一致性。

實際上，三維重建是實現沉浸式AR效果的基礎。而NeuralRecon這種基於單個攝像頭拍攝的視訊，實時進行三維重建的方法，就為AR在普通智慧手機上的落地應用打下了理論基礎。

要知道，為了在手機、平板等裝置上實現更好的AR效果，蘋果甚至用上了鐳射雷達這樣的感測器。現在有了NeuralRecon，即使是普通的智慧手機，也能實現更強大的AR功能。

比如基於NeuralRecon重建的場景，實現這樣的效果：

圖片

論文連結：https://arxiv.org/abs/2104.00681

以上，還只是商湯這回在CVPR上展示的學術積累的一個方面。

比如，在與自動駕駛息息相關的點雲方面，商湯同樣有一篇論文中選Oral。

在Variational Relational Point Completion Network這篇論文中，研究人員提出了一個兩階段網路，來從殘缺點雲中學習關係型結構屬性，從而恢復可信且高質量的完整點雲形狀。此外，論文還生成了一個豐富的殘缺點雲資料集，可作為點雲補全測試基準。

論文連結：https://arxiv.org/abs/2104.10154

而在影象視訊編碼方面，Checkerboard Context Model for Efficient Learned Image Compression這篇論文創新地提出了棋盤格上下文建模方式，實現了在常用模型上超過40倍的加速。

論文連結：https://arxiv.org/abs/2103.15306

圖片

除此之外，在同期舉辦的挑戰賽中，商湯-南洋理工聯合實驗室（S-Lab）團隊一舉斬獲CVPR 2021 NTIRE視訊理解挑戰賽三項冠軍，包括視訊超解析度、重度壓縮視訊質量增強（固定量化參數，保真度）和重度壓縮視訊質量增強（固定位元率，保真度）賽道。商湯研究院團隊摘得CVPR 2021 ActivityNet時序動作檢測任務弱監督學習賽道冠軍。

一窺商湯應用佈局

話至此處，可見在這屆CVPR上，商湯這個「演算法工廠」仍然延續了全能的風格。

並且在此次入選CVPR的論文中，不僅能看到商湯在各個學術領域的投入，還能一窺從自動駕駛到智慧城市，乃至在手機等諸多應用領域，商湯的技術佈局。

比如提升屏下相機的成像質量：

圖片

論文地址：https://jnjaby.github.io/projects/UDC/

又比如在自動駕駛技術上，針對軌跡預測問題，商湯的研究人員引入Transformer，提出了一種基於堆疊式Transformer的端到端軌跡預測框架mmTransformer。既有效減輕了軌跡預測的複雜性，也確保了多模態的軌跡輸出。

圖片

論文地址：https://decisionforce.github.io/mmTransformer/

而在鐳射雷達的3D目標檢測上，商湯提出了一種名為ST3D的自訓練域適應方法，讓檢測器在用高質量偽標籤訓練的同時，避免對大量簡單樣本過擬合。實驗表明，ST3D在KITTI 3D目標檢測榜上，甚至超過了全監督方法。

論文地址：https://arxiv.org/abs/2103.05346

事實上，圍繞汽車智慧化這個時下最熱的產業命題，商湯近來可謂落子頻繁。

在今年的上海國際車展上，商湯的SenseAuto智慧汽車解決方案正式亮相，而結合SenseAuto展現的能力和商湯的CVPR論文，便可看出商湯佈局自動駕駛的獨特之處——

依靠長期以來在感知技術上的沉澱和積累，一口氣打通車內車外，從艙內對駕駛員的感知，到艙外的自動駕駛系統，形成一站式解決方案。

圖片

另外，說到技術落地，就要提及商湯一直以來關注的另一個重點——長尾問題。

同樣，此番也有論文體現。如LVIS Challenge 2019&2020 冠軍團隊的長尾目標檢測演算法Equalization Loss v2，從梯度的角度提出了一種統一的視角來分析長尾問題，並已開源。

論文地址：https://arxiv.org/abs/2012.08548

其實無論是在防火、防水這樣的智慧城市應用場景中，還是在複雜道路行駛的自動駕駛場景中，長尾問題一直是困擾著AI模型的一個技術難點。

圖片

畢竟再怎麼精心調教，看似達到了高精度的模型們，總是會在現實場景中被訓練時未曾遇見的情況困住。

商湯也在多年的實踐中認識到，一對一精細打磨的模型難以應對長尾問題，反而是簡單粗暴地用上大資料+大模型+強算力，「眉毛頭髮一把抓」，更能解決AI商業化落地中的這個老大難問題。

而這，其實也就是商湯為什麼能在CVPR這樣的頂會上多點開花的技術祕籍。

商湯祕籍：AI大裝置

無論是SenseAuto還是解決長尾問題的「大力出奇跡」，據商湯聯合創始人林達華透露，幾乎都是在商湯AI大裝置的基礎上進行的。

什麼是AI大裝置？

其實就是商湯在過去幾年中，投資56億打造大資料+大模型+超強算力的人工智慧基礎設施，包括AI算力中心（AIDC）、演算法訓練平臺SenseParrots和資料處理平臺，以及面向社群的開源演算法模型框架OpenMMLab、面向企業的開放演算法模型工廠SenseSpring。

圖片

至於AI大裝置給商湯帶來了什麼，林達華也做了進一步的解釋：

從技術突破這個角度來說，人工智慧大裝置的一個重要意義就是，它為人工智慧的技術研發提供了關鍵的算力支撐。在這個基礎設施之上，人工智慧大裝置還提供了豐富的工具和技術元件，能幫助研究員進行快速的試錯，他們能夠快速地實驗很多新的想法。這樣一來，很多有價值的新技術、創新想法就都出來了。

可以說，商湯多年以來在CVPR等頂會上展現的研發、創新能力，在今天沉澱成為了AI大裝置的形態。而反過來，AI大裝置也進一步加速了研發人員實現想法創意、凝結技術成果的過程。

圖片

林達華談到，在現在這個階段，人工智慧的一些簡單的基礎問題都已經解決了，AI的進一步發展，就是要深入到更廣泛的行業裡面。

但這也就意味著，成千上萬的具體問題正在浮出水面，人工智慧如果沿著過去那種「具體問題具體攻破」的路徑接著走，是很難真正更深化地實現落地的。

這個時候，整個行業需要通用性更強的模型。

而像GPT-3、AlphaFold這樣的代表性成果，就指出了一條可行的路徑：大參數模型，能夠帶來完全不一樣的革命性的變化。

這也就是商湯要重金押注AI大裝置的意義所在。

一方面，對於未來10年的人工智慧發展，構建起基礎設施。

另一方面，當越來越多的人才投入到AI演算法研發領域，AI大裝置這樣的基礎設施，將隨著技術的開源開放，逐漸從企業內部平臺，演變成面向整個生態、整個社群的具有公共性質的設施。

不僅僅是對商湯而言，對於整個AI產業而言，人才+生態+技術，或許正是推動AI進入工業化發展階段，真正高效率、低成本賦能百業的關鍵所在。

現在，商湯CVPR 2021的成績單，就是對AI大裝置路徑的一次有力驗證。

「大力出奇跡」在未來還能給AI領域帶來怎樣的驚喜，由此看來值得持續期待。

你覺得呢？

66篇論文入選CVPR 2021，商湯的祕籍竟是「大力出奇跡」

熱門文章