首頁 > 科技

ResNet也能用在3D模型上了,清華「計圖」團隊新研究已開源

2021-06-18 14:01:22

魚羊 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

用AI處理二維影象,離不開卷積神經網路(CNN)這個地基。

不過,面對三維模型,CNN就沒有那麼得勁了。

主要原因是,3D模型通常採用網格資料表示,類似於這樣:

圖片

這些三角形包含了點、邊、面三種不同的元素,缺乏規則的結構和層次化表示,這就讓一向方方正正的CNN犯了難。

圖片

那麼像VGG、ResNet這樣成熟好用的CNN骨幹網路,就不能用來做三維模型的深度學習了嗎?

並不是。

最近,清華大學計圖(Jittor)團隊,就首次提出了一種針對三角網格面片的卷積神經網路SubdivNet

基於SubdivNet,就可以將成熟的影象網路架構遷移到三維幾何學習中。

並且,相關論文和程式碼均已開源。

圖片

基於細分結構的網格卷積網路

所以,SubdivNet是如何打破2D到3D之間的壁壘的呢?

具體而言,這是一種基於細分結構的網格卷積網路

圖片

對於輸入的網格資料,先進行重網格化(remesh),構造細分結構,得到一般網格的多解析度表示;而後,再上重頭戲——面片卷積方法上下采樣方法

面片卷積方法

以往的網格深度學習方法,通常是將特徵儲存在點或者邊上,這就帶來了一個問題:點的度數是不固定的,而邊的卷積並不靈活。

於是,計圖團隊提出了一種在面片上的網格卷積方法,以充分利用每個面片與三個面片相鄰的規則性質。

並且,基於這樣的規則性質,研究團隊進一步依據面片之間的距離,設計了多種不同的卷積模式。

圖片

由於三維資料格式中的面片順序不固定,SubdivNet在計算卷積結果時,通過取鄰域均值、差分均值等方式,使得計算結果與面片順序無關,滿足排列不變性。

圖片

上下采樣方法

再來看上下采樣的部分。

SubdivNet受到傳統的Loop細分曲面建模的啟發,構造了一種基於細分結構的上下采樣方法。

圖片

也就是說,在池化(下采樣)過程中,由於網格資料已經經過重網格化,其面片具有細分連線結構,就可以4片變1片,從高解析度轉為低解析度,實現面片特徵的池化操作。

而在上取樣的過程中,則反過來,讓面片一分為四

圖片

如此一來,上下采樣方式就是規則且均勻的,還可以實現雙線性插值等需求。

結合面片卷積方法和上下采樣方法,像VGG、ResNet、DeepLabV3+這樣經典2D卷積網路,就可以輕鬆遷移到3D模型的深度學習中。

值得一提的是,SubdivNet方法是基於清華大學的深度學習框架計圖(Jittor)實現的。其中,計圖框架提供了高效的重索引運算元,無需額外的C++程式碼,即可實現鄰域索引。

實驗結果

至於SubdivNet的效果如何,不妨直接看看實驗結果。

首先,在網格分類資料集上,SubdivNet在SHREC11和Cube Engraving兩個資料集中,首次達到了100%的分類正確率。

圖片

網格分割方面,量化指標下,SubdivNet的分割準確率均高於用於對比的點雲、網格方法。

圖片
圖片

而在形狀對應實驗中,SubdivNet也達到了SOTA水準。

圖片
圖片

關於作者

這篇論文來自清華大學計算機系胡事民教授團隊。

作者是胡事民及其博士生劉政寧、國孟昊、黃家輝等,還有卡迪夫大學Ralph Martin教授。

同時,他們也是清華「計圖」框架團隊成員。

計圖是首個由中國高校開源的深度學習框架,開發團隊均來自清華大學計算機系圖形學實驗室,負責人是胡事民教授。

該實驗室的主要研究方向是計算機圖形學、計算機視覺、智慧資訊處理、智慧機器人、系統軟體等,在ACM TOG, IEEE TVCG, IEEE PAMI, ACM SIGGRAPH, IEEE CVPR, IEEE ICRA, USENIX ATC等重要國際刊物上發表論文100餘篇。

目前,開發計圖的主力,是該實驗室樑盾、楊國燁、楊國煒、周文洋、劉政寧、李相利、國孟昊和辛杭高等一批博士生。

與TensorFlow、PyTorch不同,計圖是一個完全基於動態編譯,使用元運算元和統一計算圖的深度學習框架。

此前,在可微渲染動態圖推理等方面,計圖都有超越PyTorch的表現。

論文地址:https://arxiv.org/abs/2106.02285

項目地址:https://github.com/lzhengning/SubdivNet

參考連結:https://mp.weixin.qq.com/s/tJjarzqU7MvS_pHWWO3JYQ


IT145.com E-mail:sddin#qq.com