CVPR獎項最佳論文花落馬普所，何愷明獲提名，黃煦濤紀念獎頒佈

2021-06-22 15:07:57

機器之心報道

機器之心編輯部

昨晚，CVPR 2021 公佈了最佳論文、最佳學生論文等獎項。德國馬普所和蒂賓根大學的研究者獲得了最佳論文獎，加州理工和西北大學的研究者獲得最佳學生論文獎。此外，FAIR 包括何愷明在內的兩位華人學者獲得最佳論文提名，而另一位華人學者、華盛頓大學計算機系碩士研究生林山川（Shanchuan Lin）獲得了最佳學生論文提名。

6 月 19 日，CVPR 2021 在線上拉開帷幕。

今年，大會一共接收了 7039 篇有效投稿，其中進入 Decision Making 階段的共有約 5900 篇，最終有 1366 篇被接收為 poster，295 篇被接收為 oral，其中錄用率大致為 23.6%，略高於去年的 22.1%。

此外，大會還公佈了參會人數等具體的統計資料。據悉，CVPR 2021 共有 83 個 workshop、30 個 tutorial、6800 多位參與者、12 個 session 的 1600 多篇論文、15 位受邀演講者和 4 個 live 專題討論會，以及 50 多位贊助商。

企業方面，國內的 AI 公司在本屆 CVPR 上依然取得了良好的成績，比如商湯有 66 篇論文入選，還拿到了 CVPR 2021 ActivityNet 時序動作檢測任務弱監督學習賽道冠軍以及 CVPR 2021 NTIRE 視訊理解挑戰賽的三項冠軍；快手也有 14 篇論文被接收，涵蓋三維視覺、目標檢測、視訊目標分割、人臉偽造技術檢測等熱門研究領域。

昨晚，本屆大會的最佳論文、最佳學生論文等獎項悉數公佈，其中，最佳論文由德國馬普所和蒂賓根大學的兩位研究者摘得，最佳學生論文由加州理工學院、西北大學的多位研究者獲得。

以下是關於本屆大會的詳細報道。

最佳論文

今年的最佳論文是由德國馬普所和蒂賓根大學的兩位研究者摘得，獲獎論文是《GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields》。

論文地址：https://arxiv.org/pdf/2011.12100.pdf

最佳論文講了什麼

深度生成模型允許以高解析度進行高真實感影象合成。但對於許多應用程式來說，這還不夠：內容創建還需要可控。雖然近來一些工作研究瞭如何解開資料中變化的潛在因素，但其中大多數是在 2D 場景下運行的，而忽略了現實世界是 3D 的。此外，只有少數研究考慮了場景的構圖性質。而該研究的關鍵假設是將組合 3D 場景表徵結合到生成模型中，以生成更加可控的影象合成。通過將場景表徵為組合的生成神經特徵場，該研究能夠從背景中分離出一個或多個目標以及單個目標的形狀和外觀，同時從非結構化和未定位的影象集合中學習，而無需任何額外的監督。該研究通過將場景表徵與神經渲染 pipeline 相結合，得到了快速且逼真的影象合成模型。實驗表明，該模型能夠分離出單個目標，並允許在場景中平移和旋轉它們以及改變相機位姿。

一作簡介

Michael Niemeyer 馬克斯·普朗克智慧系統研究所 AVG 組計算機視覺 / 機器學習方向的博士生，導師是 Andreas Geiger。他的研究重點是 3D 視覺，並對機器從稀疏觀察中推斷出 3D 表徵感興趣。此外，Niemeyer 重點關注神經場景表徵領域的研究。Niemeyer 本科畢業於德國科隆大學，之後在聖安德魯斯大學獲得高階電腦科學碩士學位。

最佳論文提名

今年獲得最佳論文提名的論文有兩篇，分別由 FAIR 和明尼蘇達大學的研究者摘得。

論文 1：《Exploring Simple Siamese Representation Learning》

論文作者：Xinlei Chen、何愷明作者機構：FAIR論文地址：https://arxiv.org/pdf/2011.10566.pdf

摘要：Siamese 網路已成為各種無監督視覺表徵學習模型中的常見結構。這些模型最大限度地提高了一個影象的兩個增強之間的相似性，但需要滿足一定的條件，以避免模型崩潰。該論文給出了令人驚訝的實證結果，即使不使用以下任何一種形式，簡單的 Siamese 網路也可以學習有意義的表徵：(i) 負樣本對、（ii）大 batch 和（iii）momentum 編碼器。實驗證明，對於損失和結構確實存在崩潰解 (collapsing solutions)，但停止梯度操作在防止崩潰方面起著至關重要的作用。

該論文提供了一個關於 stop-gradient 含義的假設，並通過概念驗證實驗進一步驗證了這一假設。該研究提出的 SimSiam 方法在 ImageNet 和下游任務上獲得了具有競爭力的結果。該研究希望這個簡單的基線將激勵研究者重新思考 Siamese 體系架構在無監督表徵學習中的作用。

論文 2：《Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos》

論文作者：Yasamin Jafarian、Hyun Soo Park作者機構：明尼蘇達大學論文地址：https://arxiv.org/pdf/2103.03319.pdf

摘要：學習穿戴人體幾何的一個關鍵挑戰在於真值資料（如三維掃描模型）的有限可用性，這導致三維人體重建在應用於真實世界影象時效能下降。該研究通過利用一種新的資料資源來應對這一挑戰：大量的社交媒體舞蹈視訊，涵蓋了不同的外觀、服裝風格、表演和身份。每個視訊描述了一個人的身體和衣服的動態運動，然而缺乏 3D 真值幾何。

為了利用這些視訊，該研究提出了一種新的方法來使用局部變換，即將預測的局部幾何體從一幅影象在不同的時刻扭曲到另一幅影象。通過變換，預測的幾何可以通過來自其他影象的扭曲幾何進行自監督。此外，該研究還通過最大化局部紋理、褶皺和陰影的幾何一致性，聯合學習深度以及對局部紋理、褶皺和陰影高度敏感的曲面法線。

該研究的方法是端到端可訓練的，可以產生高保真深度估計來預測精細幾何貼近輸入真實影象。該論文表明所提方法在真實影象和渲染影象上都優於 SOTA 人體深度估計和人體形狀恢復方法。

最佳學生論文

今年的最佳學生論文由加州理工學院、西北大學的多位研究者獲得，獲獎論文是《Task Programming: Learning Data Efficient Behavior Representations》。

論文地址：https://arxiv.org/pdf/2011.13917.pdf

專業領域知識對於準確註釋訓練集以進行深入分析通常是必需的，但從領域專家那裡獲取這些知識可能既繁瑣又耗時。這個問題在自動化行為分析中尤為突出，該領域通常從視訊跟蹤資料中檢測出智慧體運動或其他感興趣的動作。為了減少註釋工作，該研究提出了 TREBA：一種基於多工自監督學習，用於行為分析的學習註釋樣本有效軌跡嵌入的方法。

該方法中的任務可以由領域專家通過一種稱為「任務程式設計」的過程進行有效設計，該過程使用程式明確編碼來自領域專家的結構化知識。通過構建少量程式設計任務來換取資料註釋時間，可以減少領域專家的工作量。該研究使用來自行為神經科學的資料來評估這種權衡，其中使用專門的領域知識來識別行為。該研究在兩個領域（小鼠和果蠅）的三個資料集中展示了實驗結果。與 SOTA 特徵相比，使用來自 TREBA 的嵌入可以在不影響準確率的情況下將註釋負擔減少 10 倍。該研究的結果表明，任務程式設計和自監督可以成為減少領域專家註釋工作的有效方法。

最佳學生論文提名

今年獲得最佳學生論文提名的論文有三篇，分別由北卡羅來納大學教堂山分校 & 微軟 Dynamics 365 AI Research、英偉達 & 加州大學聖芭芭拉分校以及華盛頓大學的研究者摘得。

論文 1：《Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling》

論文作者：Jie Lei、Linjie Li、Luowei Zhou、Zhe Gan、Tamara L. Berg、Mohit Bansal、Jingjing Liu作者機構：北卡羅來納大學教堂山分校、微軟 Dynamics 365 AI Research論文地址：https://arxiv.org/pdf/2102.06183.pdf

摘要：視訊和語言學習的規範方法（例如，視訊問答）要求神經模型從視覺模型中離線提取的密集視訊特徵和語言模型中的文字特徵中學習。通常，這些特徵提取器是獨立訓練的，以用於與目標域不同的任務，但這些固定特徵對於下游任務來說不是最佳的。此外，由於密集視訊特徵的計算量很大，通常很難（或不可行）將特徵提取器直接插入現有方法中以方便微調。

為了解決這個難題，該研究提出了一個通用框架 CLIPBERT，它通過採用稀疏取樣來實現視訊和語言任務的端到端學習，而且在每個訓練步驟中只需要使用一個或幾個稀疏取樣的視訊短片。在 6 個數據集上進行的文字 - 視訊檢索和視訊問答的實驗表明，CLIPBERT 優於（或與之媲美）利用全長視訊（full-length videos）的現有方法，這表明僅使用幾個稀疏取樣的剪輯即可進行端到端學習通常比使用從全長視訊中密集提取的離線特徵更準確，證明了眾所周知的「少即是多」原則。資料集中的視訊來自不同的域和長度，從 3 秒的通用域 GIF 視訊到 180 秒的 YouTube 人類活動視訊，這顯示了該方法的泛化能力。此外，該研究還提供了全面的消融研究和徹底的分析，以剖析導致這種成功的因素。

論文 2：《Binary TTC: A Temporal Geofence for Autonomous Navigation》

論文作者：Abhishek Badki、Orazio Gallo、Jan Kautz、Pradeep Sen作者機構：英偉達、加州大學聖芭芭拉分校論文地址：https://arxiv.org/pdf/2101.04777.pdf

摘要：Time-to-contact (TTC) 是物體與觀測者水平碰撞的時間，是路徑規劃的有力工具：擁有比場景中物體的深度、速度和加速度更豐富的資訊。TTC 有幾個優點，其中一個優點是隻需要一個單目、未經校準的攝像機。然而，迴歸每個畫素的 TTC 並不簡單，現有的大多數方法對場景的假設都過於簡化。

該研究通過一系列簡單的二元分類（binary classifications）來估計 TTC 以解決這個問題，並以低延遲預測觀測者是否會在特定時間內與障礙物發生碰撞，這通常比精確每個畫素的 TTC 更為關鍵。對於這種情況，該研究的方法在 6.4 毫秒內提供了一個臨時地理圍欄（temporal geofence），比現有方法快 25 倍多。

在計算預算允許的條件下，該方法也可以用任意精細量化（包括連續值）估計每畫素（per-pixel）的 TTC。據瞭解，該方法是第一個以足夠高的幀率提供 TTC 資訊（二進位制或粗量化）以供實際使用。

論文 3：《Real-Time High-Resolution Background Matting》

論文作者：Shanchuan Lin、Andrey Ryabtsev、Soumyadip Sengupta、Brian Curless、Steve Seitz、Ira Kemelmacher-Shlizerman作者機構：華盛頓大學論文地址：https://arxiv.org/pdf/2012.07810.pdf

摘要：該論文提出了一種實時、高解析度的背景替換技術，該技術可以在 GPU 上以 30fps 速度運行 4K 解析度和以 60fps 的速度運行高清解析度。該技術是基於背景摳圖（background matting），其中一個額外的背景幀被捕獲，並用於通知 alpha 蒙版和前景層。該研究的主要挑戰是計算一個高質量的 alpha 蒙版，在實時處理高解析度影象的同時保留頭髮的細節。

為了實現這個目標，該研究使用了兩個神經網路；基礎網路計算低解析度結果，該結果由第二個網路在選擇性 patch 上以高解析度運行。此外，還介紹了兩個大規模的視訊和影象摳圖資料集：VideoMatte240K 和 PhotoMatte13K/85。與 SOTA 背景摳圖技術相比，該研究產生了更高質量的結果相比，同時顯著提高了運行速率和解析度。

其他獎項

除了論文獎之外，大會還頒佈了 PAMITC 獎，其中包括三個重要獎項，即往年設立的 Longuet-Higgins 獎、青年研究者獎，以及在 CVPR 2020 設立、今年開始頒發的 Thomas S. Huang 紀念獎。

Longuet-Higgins 獎

Longuet-Higgins 獎是 IEEE 計算機協會模式分析與機器智慧（PAMI）技術委員會在每年的 CVPR 頒發的「計算機視覺基礎貢獻獎」，表彰十年前對計算機視覺研究產生了重大影響的 CVPR 論文。該獎項以理論化學家和認知科學家 H. Christopher Longuet-Higgins 命名。

今年獲得 Longuet-Higgins 獎的論文有兩篇，分別是微軟研究者的《Real-Time Human Pose Recognition in Parts from Single Depth Images》和石溪大學研究者的《Baby Talk: Understanding and Generating Simple Image Descriptions》。

論文 1：《Real-Time Human Pose Recognition in Parts from Single Depth Images》發表於 2011 年，作者來自於微軟劍橋研究院，目前被引用次數為 4110。論文主要介紹了基於單張深度影象的實時人體姿態識別。

論文地址：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf

論文 2：《Baby Talk: Understanding and Generating Simple Image Descriptions》也發表於 2011 年，研究者來自於石溪大學，目前被引用次數為 1159。論文主要提出了一個從影象自動生成自然語言描述的系統。

論文地址：https://ieeexplore.ieee.org/document/5995466

青年研究者獎

青年研究者獎（Young Researcher Awards）旨在表彰年輕的科學家，鼓勵ta們繼續做出開創性的工作。評選標準是獲獎者獲得博士學位的年限少於 7 年。

今年獲得該獎項的研究者分別是 FAIR 的 Georgia Gkioxari 和 MIT 的 Phillip Isola。

Georgia Gkioxari 現為 FAIR 的研究科學家。2010 年，她取得了雅典國家技術大學的學士學位。2016 年，她取得了加州大學伯克利分校的博士學位，導師為 Jitendra Malik。2016 年至今，她進入 FAIR 擔任博士後研究員，並從 2018 年起擔任 FAIR 的研究科學家。

Georgia Gkioxari 的主要研究領域是計算機視覺，還是 PyTorch 3D 的開發者之一以及 Mask R-CNN 的作者之一。

個人主頁：https://gkioxari.github.io/

Phillip Isolas 是 MIT 電氣工程與計算機科學系的助理教授，主要研究方向為計算機視覺、機器學習與 AI。2008 年，他取得了耶魯大學的電腦科學學士學位，2015 年獲得了 MIT 的認知科學博士學位，2015-2017 年成為 UC 伯克利的博士後研究員，2017-2018 年擔任 OpenAI 的訪問研究科學家，2018 年至今任職 MIT 助理教授。

他在 Google Scholar 上的論文被引量達到 28056，h 指數為 33。

個人主頁：http://web.mit.edu/phillipi/

Thomas S. Huang 紀念獎

為了紀念去年四月底去世的 Thomas S. Huang（黃煦濤）教授，PAMITC 獎勵委員會去年批准設立 Thomas S. Huang 紀念獎，以表彰在 CV 研究、教育和服務方面被公認為楷模的研究人員。該獎項從 2021 年開始頒發。獲獎者需要拿到博士學位至少 7 年，最好處於職業發展中期（不超過 25 年）。

黃教授是中國工程院外籍院士，中國科學院外籍院士，美國國家工程院院士，美籍華裔資訊學家，美國伊利諾依大學（香檳分校）Beckman 研究院影象實驗室主任，於 2020 年 4 月 25 日夜（美國東部時間）在美國印第安納州逝世，享年 84 歲。黃煦濤教授在影象處理、模式識別、計算機視覺等方面有不少原創性的研究成果，開拓了新的研究領域。此獎項的設立正是為了緬懷黃教授對計算機視覺領域的突出貢獻。

首屆 Thomas S. Huang 紀念獎的獲獎者是 MIT 電氣工程與電腦科學教授 Antonio Torralba。他的研究領域涉及計算機視覺、機器學習和人類視覺感知，並熱衷於構建像人類一樣感知世界的系統。此外，他還對神經網路、常識推理、計算攝影、構建影象資料庫以及視覺藝術與計算之間的互動等其他領域頗有興趣。目前，Antonio Torralba 在 Google Schlor 上的論文總引用量高達 78736，h 指數為 111。

個人主頁：https://groups.csail.mit.edu/vision/torralbalab/

注：本文中的相關圖示來自推特使用者 @CSProfKGD 和 @JaredHeinly。

參考連結：

http://cvpr2021.thecvf.com/node/329

http://cvpr2021.thecvf.com/node/330

CVPR獎項 最佳論文花落馬普所，何愷明獲提名 ，黃煦濤紀念獎頒佈

熱門文章

CVPR獎項最佳論文花落馬普所，何愷明獲提名，黃煦濤紀念獎頒佈