首頁 > 科技

CVPR 2021全部獎項公佈:何愷明獲提名,最佳學生論文作者GPA滿分

2021-06-22 13:39:27

曉查 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

CVPR 2021本週正式召開啦,作為計算機視覺領域最重要的學術會議,大會的最佳論文自然是領域學者們關注的重要風向標。

就在上週,CVPR官方公佈了入圍的32篇最佳論文候選名單,其中華人一作佔據了16篇,國內北大、騰訊、商湯等學校機構上榜。

圖片

那麼最終哪些論文摘得榮譽呢?今天凌晨,也就是大會首日,官方公佈了結果:

其中最佳論文獎和最佳學生論文獎1篇,最佳學生論文提名3篇,最佳論文提名2篇。

在這7篇文章裡,有4篇是華人一作,我們還看到了熟悉的大神何愷明的名字。

7篇獲獎論文

最佳論文獎

圖片

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

這篇論文來自德國蒂賓根大學的兩位學者。

摘要:

這篇文章提出,將複合三維場景表示納入生成模型,會導致更可控的影象合成。將場景表示為複合生成神經特徵場,能使我們能夠從背景中解開一個或多個物件以及單個物件的形狀和外觀,同時從非結構化和非定位的影象集合中學習,而無需任何額外的監督。

圖片
圖片
圖片

本文將這種場景表示與神經渲染pipeline相結合,可以生成快速逼真的影象合成模型。實驗所證明的,該模型能夠解開單個物體,並允許在場景中平移和旋轉它們,並改變相機視角。

論文地址:https://arxiv.org/abs/2011.12100

原始碼:https://github.com/autonomousvision/giraffe

最佳論文提名

圖片

今年何愷明獲得了最佳論文提名,這篇論文就是:

Exploring Simple Siamese Representation Learning

摘要:

在本文中,作者發現,Simple Siamese網路即使不使用以下任何一種方式,也可以學習有意義的表示:(i)負樣本對,(ii)大batch,(iii)動量編碼器。

實驗表明,坍塌解決方案確實存在於損失和結構上,但停止梯度操作在防止崩塌方面發揮著至關重要的作用。作者給出了停止梯度含義的假設,並進一步展示了驗證它的概念驗證實驗。

「SimSiam」方法在ImageNet和下游任務上取得了有競爭力的結果。作者希望這個簡單的baseline將激勵人們重新思考SimSiam架構在無監督表示學習中的作用。

另外,何愷明表示,不久後將提供論文程式碼。

本文的第一作者是Xinlei Chen,本科畢業於浙江大學,之後在卡內基梅隆大學獲得博士學位,現在與何愷明一樣同在Facebook AI研究院工作。

論文地址:https://arxiv.org/abs/2011.10566

原始碼:https://github.com/facebookresearch/simsiam

另一篇獲得提名的是來自明尼蘇達大學的兩位學者。

Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

摘要:

學習穿戴人體幾何的一個關鍵挑戰在於,ground truth資料的可用性有限,這導致3D人體重建在應用於現實世界影象時的效能下降。

本文通過利用新的資料資源來應對這一挑戰:一些社交媒體舞蹈視訊,這些視訊跨越了不同的外觀、服裝風格、表演和身份。每段視訊都描繪了一個人身體和衣服的動態運動,同時缺乏3D ground truth幾何。

為了利用這些視訊,作者提出了一種使用局部變換的新方法,將人預測的局部幾何形狀從影象扭曲到另一個影象的局部幾何。這種方法是端到端可訓練的,從而產生高保真深度估計,預測忠實於輸入真實影象的精細幾何形狀。實驗證明,該方法在真實和渲染影象上都優於最先進的人類深度估計和人類形狀恢復方法。

論文地址:https://arxiv.org/abs/2103.03319

最佳學生論文獎

圖片

Task Programming: Learning Data Efficient Behavior Representations

作者來自加州理工和西北大學。

摘要:

要進行專業領域知識的深入分析,通常是準確註釋訓練集是必需的,但從領域專家那裡獲得這些既繁瑣又耗時。這個問題在自動行為分析中非常突出。

為了減少註釋工作量,本文提出了TREBA:一種基於多工自監督學習的註釋-行為分析樣本高效軌跡嵌入方法。該方法中的任務可以由領域專家通過「任務程式設計」的過程高效地進行工程化。通過交換資料註釋時間來構建少量程式設計任務,可以減少領域專家的總工作量。

本文在兩個領域的三個資料集中給出了實驗結果指出,該方法減少了多達10倍的註釋負擔,而不影響與SOTA方法相比的準確性。

值得一提的是,論文第一作者Jennifer J. Sun目前就讀於加州理工學院,本科就讀於多倫多大學,GPA是4.0。

圖片

論文地址:https://arxiv.org/abs/2011.13917

原始碼:https://github.com/neuroethology/TREBA

最佳學生論文提名

圖片

Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

論文來自北卡大學教堂山分校。

這篇文章主要研究了視訊問答(VQA)問題。

作者提出了一個通用框架ClipBERT,通過使用稀疏的取樣,在每個訓練步驟中只使用一個或幾個視訊中稀疏的取樣短片,從而為視訊和語言任務提供負擔得起的端到端學習。

論文地址:https://arxiv.org/abs/2102.06183

原始碼:https://github.com/jayleicn/ClipBERT

Binary TTC: A Temporal Geofence for Autonomous Navigation

論文來自英偉達和加州大學聖芭芭拉分校。

本文研究的問題與自動駕駛技術有關,即接觸時間(TTC),這是物體與觀察者平面碰撞的時間,是路徑規劃的有力工具,它可能比場景中物體的深度、速度和加速度提供資訊更多。

TTC有幾個優點,包括只需要一臺單目、未校準的相機。然而,每個畫素的迴歸TTC並不簡單,大多數現有方法對場景進行了過度簡化的假設。本文通過一系列更簡單的二元分類來估計TTC來應對這一挑戰。這是第一個能偶以足夠高的幀速率提供TTC資訊的方法。

圖片

論文地址:https://arxiv.org/abs/2101.04777

Real-Time High-Resolution Background Matting

論文來自華盛頓大學。

這篇文章提出了一種實時高解析度替換視訊背景的方法,能夠在4K解析度下以30fps運行。

主要挑戰是計算高質量的阿爾法啞光,保留頭髮級別的細節,同時實時處理高解析度影象。為了實現這一目標,作者使用兩個神經網路;一個基網路計算低解析度的結果,該結果再通過第二個在選擇性補丁上以高解析度運行的網路來改進。

與之前方法相比,該方法可以產生更高的質量結果,同時在速度和解析度方面都顯著提高。

圖片

該項目程式碼在GitHub上已經收穫3.7k星。

論文地址:https://arxiv.org/abs/2012.07810

原始碼:https://github.com/PeterL1n/BackgroundMattingV2

PAMITC獎

除了最佳論文相關獎項外,今年大會還頒發了PAMITC獎,包括Longuet-Higgins獎、年輕研究者獎以及首屆Thomas Huang紀念獎。

圖片

獲得Longuet-Higgins獎的兩篇論文分別是:

《Real-time human pose recognition in parts from single depth image》

《Baby talk: Understanding and generating simple image descriptions》

獲得年輕研究者獎的是來自FAIR的Georgia Gkioxari和來自MIT的Phillip Isola。

去年計算機視覺領域先驅學者黃煦濤去世,為了紀念他,CVPR決定從今年開始頒發Thomas Huang紀念獎。

第一屆Thomas Huang紀念獎的獲獎者是MIT計算機教授Antonio Torralba,今年他共有4篇論文入選CVPR。

圖片

本屆CVPR簡介

由於受新冠疫情影響,今年的CVPR仍在線上以虛擬會議形式舉行。

今年CVPR共有7039篇有效投稿,接收論文1661篇。

圖片

在CVPR召開之際,各大科技公司也陸續曬出了自己成績單,谷歌釋出超過70篇,Facebook釋出了52篇。

國內科技公司近年來在CVPR上發表的論文也與國外巨頭看齊,如商湯發表66篇、華為諾亞方舟實驗室發表30篇,曠視發表22篇,騰訊優圖發表20篇,快手發表14篇。

當然,本屆CVPR相關的workshop和turotial等活動還在進行,感興趣的讀者可訪問下方連結持續關注~

參考連結:http://cvpr2021.thecvf.com/node/141http://cvpr2021.thecvf.com/node/329


IT145.com E-mail:sddin#qq.com