首頁 > 科技

嬴徹科技CTO楊睿剛博士與你分享CVPR 2021入選論文

2021-06-22 18:47:32

機器之心釋出

機器之心編輯部

在本文中,嬴徹科技首席技術官(CTO)楊睿剛博士就被本屆大會被收錄的 5 篇論文為大家帶來解讀。

一年一度的 CVPR 2021 正如火如荼地在線上舉行,來自全球的逾 7,000 位學者通過線上網路分享和交流計算機視覺和人工智慧領域的前沿研究。

嬴徹科技首席技術官(CTO),楊睿剛博士,就被本屆大會收錄的 5 篇論文為大家帶來一一解讀。此外,作為 CVPR 2021 大會程式主席(Program Chair),他也分享了對今年的大會論文投稿數、接收率、論文質量等方面的看法。

這 5 篇論文,包含 2 篇 Oral 論文,主要集中在語義分割、遷移語義、深度估計等方向,具有較高的工業化應用前景,能夠為高階自動駕駛方案提供充分的理論支撐。這 5 篇論文也是嬴徹科技的研發人員與香港大學、香港中文大學、北京理工大學等研究機構基於嬴徹自動駕駛系統研發工作的共同成果。

論文分享,自動駕駛學術前沿一睹為快

1、圓柱座標系和非對稱 3D 卷積神經網路在鐳射點雲劃分中的應用

Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation

在語義分割任務中,模型的任務是為 3D 點雲中的每個點分配一個語義標籤。為了解決室外點雲的密度不均和稀疏性問題,該論文提出了包含圓柱座標系下的體素劃分和非對稱 3D 卷積網路兩大部分的框架。前者負責對點雲進行圓柱體形式的劃分,這種方法適配了鐳射雷達掃描時的扇形分佈特性,避免了遠近處獲得的點雲數量不均勻。後者可更好地匹配駕駛場景下的物體分佈和形狀,並基於二維和三維分解挖掘上下文資訊,從多角度看到每個點雲的全貌,從而解決點雲稀疏性難題。最後,該論文還引入了一個 point-wise 模組來改進前面得到的體素塊輸出,以點塊結合的方式提高了辨識精度。

這項新的演算法在兩個大型室外場景資料集(SemanticKITTI 和 nuScenes)上進行了模型評估。在 SemanticKITTI 資料集上,新框架取得了兩項第一。在 nuScenes 資料集上,新方法的表現也大大超過了之前的方法。

新的演算法被應用在嬴徹科技自動駕駛系統的感知演算法中,作為 「精準語義分割 3D 感知技術」 的核心演算法,能夠更魯棒、更及時感知道路上突發遇到的各類物體,從而幫助自動駕駛系統更準確地做出決策規劃,讓高速行車更安全。

關鍵詞:圓柱座標系,點雲語義分割

論文連結:https://github.com/xinge008/Cylinder3D

2、領域自適應的遷移語義增強

Transferable Semantic Augmentation for Domain Adaptation

增強結果視覺化

領域自適應主要是研究如何利用具有大量標籤的源域知識,來輔助模型在一個相關但是無標籤的目標域上的學習。現有的領域自適應方法大多是基於一個共享的源域監督分類器來對齊兩個域的特徵表示。然而,這種分類器限制了模型在未標記目標域上的泛化能力。

針對這個問題,該論文提出了一種遷移語義增強方法(TSA):通過朝著目標域的語義方向,隱式地生成源域增強特徵,利用這些具有目標域語義的增強特徵來提高模型在目標域上的泛化能力。

在該論文中,對於每一類,TSA 利用一個多元正態分佈來建模兩個域之間該類的語義差異,然後從構建的分佈中隨機取樣語義增強方向來增強源域特徵。最後,論文通過最小化一個期望損失函數的上界實現了源域特徵的無限增廣。相比於其他應用於 DA 的資料增強方法,TSA 是隱式增強,其引入的額外計算開銷幾乎可忽略不計,更輕量通用。在多個公開的跨領域資料集上,TSA 都取得了更有競爭力的實驗結果。

關鍵詞:語義遷移,隱式增強

論文連結:https://github.com/BIT-DA/TSA

3、高效推斷的動態領域自適應

Dynamic Domain Adaptation for Efficient Inference

以往的領域自適應演算法大多利用複雜而強大的深層神經網路來提高自適應能力,並取得了顯著的成功。然而,它們可能無法適用於實時互動等實際情況,即在有限的計算資源下低延遲是一個基本要求。

為了解決這個問題,本文提出了一種動態領域自適應(DDA)框架,該框架既能在低資源場景下實現高效的目標推理,又能繼承領域自適應演算法帶來的良好跨域泛化特性。與靜態模型不同,通過在網路中配置多箇中間分類器來動態推斷 「更簡單」 和「更困難」的目標資料,DDA 可以將各種領域混淆約束整合到任意的經典自適應網路中,簡單而通用。

此外,該論文還提出了兩種新的策略來進一步提高多個預測出口的自適應效能:1)基於置信度得分的學習策略——充分挖掘不同分類器的預測一致性,以此獲得目標域資料的準確偽標籤;2)類平衡的自訓練策略——在不損失預測多樣性的前提下,使多階分類器從源域顯式地適配到目標域上。多個基準上的實驗驗證了 DDA 演算法在域遷移和資源受限的情況下,仍能夠持續地提高自適應效能並加速目標推理。

關鍵詞:領域自適應,推理加速

論文連結:https://github.com/BIT-DA/DDA

4、針對長尾影象識別的元語義增廣

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

現實世界的訓練資料通常表現為長尾分佈,其中幾個多數類的樣本數量顯著多於其餘少數類。這種不平衡的資料分佈使得專為平衡資料集設計的監督演算法出現效能退化。

為了解決這個問題,本篇論文利用最近提出的隱式語義資料增強 (ISDA) 演算法來增強少數類。該演算法通過沿著多個有語義意義的方向,變換深度特徵來產生多樣化的增強樣本。但是,ISDA 是利用各類的統計資訊而獲取的語義方向,其在缺乏訓練樣本的少數類上會表現欠佳。為此,論文提出了一種基於元學習的自動學習語義變換方向的方法。

具體地,訓練過程中的增廣策略是動態優化的,目標是最小化小型平衡驗證集上的損失,這一過程可用一步元更新近似。在 CIFAR-LT-10/100、ImageNet-LT 和 iNaturalist 2017/2018 上的實驗結果證明了此方法的有效性。

關鍵詞:資料不均衡,語義變換

論文連結:https://github.com/BIT-DA/MetaSAug

5、使用對極時空網路的多檢視深度估計

Multi-view Depth Estimation using Epipolar Spatio-Temporal Network

該論文針對多視角立體視覺(Multi-view Stereo)應用在視訊的場景,提出了一種利用時序相關性的新方法。過去的多視角立體幾何的方法,通常只能單獨估計每一幀圖片的深度資訊,無法利用視訊的時序相關性來提高準確度。該論文提出了一種新穎的極幾何時空的 transformer 結構,在對多張連續視訊幀進行深度估計時,能夠顯性得利用連續影象的幾何和時序資訊,提高了對視訊進行深度估計的時序一致性。在多個公開資料集上,該論文的方法都取得了領先的效果。

關鍵詞:極幾何時空,多視角立體幾何

論文連結:https://www.xxlong.site/ESTDepth/

楊睿剛:CVPR 仍是最強,要時刻保持對前沿技術的敏感性

而對於 CVPR 2021 的大會工作,楊睿剛博士也從程式主席的角度對廣大學者們分享了自己的看法:

今年總共收到約 7,015 篇投稿,看起來投稿數的增長相比過去三年變緩了,但大家應該注意到論文接收數在穩定地增加。一方面我們很高興 CVPR 的影響力和吸引力始終在 AI 領域保持領先,另一方面如此大量的投稿也對論文的評審工作提出了更高的要求,一大批新的領域主席(Area Chair)和審稿人加入我們,我們同時引入了自動化分類和匹配的手段來提升效率。

事實證明這些舉措取得了很好的效果,同時非常感謝我們全部的 AC 和審稿人的配合,AC Triplet 的線上會議持續了整整一週,讓我們在全球仍在與疫情鬥爭的形勢下,仍然保質保量地完成了全部的工作。

談到論文接收率,我作為程式主席常常會被問到我們是否會刻意設定一個特定的閾值。其實並沒有,我們只是按照一個 CVPR 的一貫標準去看待每一篇論文是否值得被收錄,而最終的接收率結果就比較穩定的收斂到了 25% 左右。

我認為我們對於評審標準和論文質量的堅持,讓 CVPR 保持了在 AI 領域內的絕對地位。在 Guide2research 的榜單上,CVPR 是在電腦科學領域影響因子排名第一的頂級會議,即使與 Nature 和 Science 這樣的頂級刊物放在一起,CVPR 也在全領域榜單中排入前五。因此我衷心地祝賀所有拿到 CVPR 錄用通知的作者們,也鼓勵那些在這次會議失之交臂的作者們。絕大多數評審的結果都是客觀中肯的,我更願意大家把評審意見當做改進自己工作的一面鏡子,這樣能讓自己在這個領域擁有持續耕耘的動力。

Guide2research 電腦科學頂級會議影響力排名

谷歌學術影響力排名

最後想說一下我在企業裡繼續參與 CVPR、ICCV 這種學術頂會的另一個視角。我認為科技初創公司要時刻保持對前沿技術的敏感性,通過參會培養一支視野開闊、勇於創新的團隊,對於嬴徹而言,一方面是繼續夯實在量產方面的工程能力,另一方面,就是不斷突破自動駕駛技術難題,而這些頂級會議,對於演算法團隊來說是一個不可多得的練兵機會。

嬴徹非常難得地提供了兼具商業技術創新和前沿技術探索的土壤。我們內部有一個名為 X Lab 的 Research 團隊,匯聚了來自新加坡國立大學、浙江大學、北京大學等國內外知名高校的博士、博士後,他們與香港大學、香港中文大學、美國馬里蘭大學、清華大學等緊密合作,共同探索計算機視覺和機器人領域的前沿課題,為嬴徹軒轅自動駕駛系統的自主研發提供了強有力的支援,非常期待更多頂會玩家加入我們。


IT145.com E-mail:sddin#qq.com