首頁 > 科技

高真實感、全局一致、外觀精細,面向模糊目標的NeRF方案出爐

2021-06-01 00:13:28

選自arXiv

作者:Haimin Luo等

機器之心編譯

編輯:陳萍

自 NeRF 被提出後,有多項研究對其加以改進。在本篇論文中,上海科技大學的研究者提出了首個將顯式不透明監督和卷積機制結合到神經輻射場框架中以實現高質量外觀的方案。

模糊複雜目標的高真實感建模和渲染對於許多沉浸式 VR/AR 應用至關重要,其中物體的亮度與顏色和檢視強相關。在本文中,來自上海科技大學的研究者提出了一種使用卷積神經渲染器為模糊目標生成不透明輻射場的新方案,這是首個將顯式不透明監督和卷積機制結合到神經輻射場框架中以實現高質量外觀的方案,並以任意新視角生成全局一致的 alpha 蒙版。

具體而言,該研究提出了一種有效的取樣策略以及攝像機光線和影象平面,從而能夠進行有效的輻射場取樣,並以 patch-wise 的方式學習。同時,該研究還提出了一種新型的體積特徵整合方案,該方案會生成 per-patch 混合特徵嵌入,以重建檢視一致的精細外觀和不透明輸出。

此外,該研究進一步採用 patch-wise 對抗訓練方案,以在自監督框架中同時保留高頻外觀和不透明細節。該研究還提出了一種高效的多檢視影象捕獲系統,以捕獲挑戰性模糊目標的高質量色彩和 alpha 圖。在現有資料集和新的含有挑戰性模糊目標的資料集上進行的大量實驗表明,該研究提出的新方法可以對多種模糊目標實現高真實感、全局一致、外觀精細的不透明自由視角渲染。

論文地址:https://arxiv.org/abs/2104.01772

該研究的主要貢獻包括:

提出了一種新型卷積神經輻射場生成方案,用於重建高頻和新檢視中模糊目標的全局一致的外觀和不透明度,並顯著超越了此前的 SOTA 效能;為了啟用卷積機制,該研究提出了高效的取樣策略,混合特徵融合以及用於 patch-wise 輻射場學習的自監督對抗訓練方案;提出了一種高效的多檢視系統,以捕獲顏色和 alpha 圖,以應對具有挑戰性的模糊目標,該研究的捕獲資料集可用於激發進一步的研究。

方法框架

研究者在論文中詳細介紹了新提出的卷積神經不透明輻射場(convolutional neural opacity radiance field, ConvNeRF)。該模型基於捕獲系統的 RGBA 輸入,能夠在新檢視中實現高真實感、全局一致的外觀和不透明渲染,如下圖所示:

端到端 ConvNeRF pipeline 概覽。

給定多檢視 RGBA 影象,研究者使用 SFS(Shape-From-Silhouette)來為高效射線取樣推斷代理幾何。對於體積空間中的每個樣本點,位置和方向都會饋入到一個基於多層感知機(MLP)的特徵預測網路,以在全局水平上表徵物件。然後,研究者將附近的射線合併為局部特徵 patch,並使用卷積體渲染器將其解碼為 RGB 和蒙版。他們在最終輸出上使用對抗訓練策略,以促成精細的表面細節。在 reference 階段,該方法一次渲染整個影象,而不是渲染每個 patch。

該方法的主要思想是使用空間卷積機制對不透明資訊進行顯式編碼,以改進神經輻射場方法(NeRF),對高頻細節進行建模。受 NeRF 啟發,研究者採用了類似的隱式神經輻射場來表徵使用多層感知器的場景,以及沿投射射線方向預測密度和顏色值的體融合(volumetric integration)。

不同的是,ConvNeRF 通過空間卷積設計進一步顯式編碼不透明度,以顯著改進神經輻射場重建。為此,研究者首先提出一種高效的取樣策略,不僅利用沿攝像機光線的先驗固有輪廓,還要編碼整個影象平面上的空間資訊。接著採用一種全局幾何表徵法將 3D 位置對映成高階輻射特徵,並通過一種新型體融合方案生成 per-patch 混合特徵嵌入,這樣一來分別對外觀和不透明度的特徵進行建模,從而以 patch-wise 的方式進行更高效的輻射場學習。

最後,研究者使用一個輕量級的 U-Net 來將特徵 patch 解碼為檢視一致的外觀和不透明度輸出,並進一步採用了一種 patch-wise 對抗訓練方案,以在自監督框架中保留高頻外觀和不透明度細節。

捕獲系統

該研究用到的捕獲系統(capture system)能夠生成高質量的多檢視 RGBA 影象,用於對具有挑戰性的模糊目標進行顯式不透明度建模。

如下捕獲系統概覽圖所示,該方法的 pipeline 配備了易於使用的捕獲裝置以及穩定的校驗和自動摳圖方法,

實驗結果

該研究在多種毛茸茸物體上評估了 ConvNeRF。定量和定性評估實驗的結果表明:與之前的工作相比,該方法可以更好地保留高保真外觀細節,並在任意新檢視中生成全局一致的 alpha 蒙版。該研究進一步進行了消融實驗,以驗證該方法的設計選擇。

如下圖 6 所示,在 Cat、Girl、Wolf 資料集上,研究者對該方法與 IBOH、NOPC、和 NeRF 的自由視點 RGB 進行了對比。結果發現,該方法能夠在保留幾何全局檢視一致性的同時重建幾何和外觀上的精細細節,例如貓的毛皮紋理、女孩靴子上的圖案以及狼毛的幾何細節。IBOH 表現出重影和混疊,NOPC 存在過度模糊和幾何細節的損失,而 NeRF 則表現出過多的噪聲和模糊。

下圖 7 展示了在 Cat、Hairstyle 2 資料集上,該方法與 IBOH、NOPC 和 NeRF 的自由視點 Alpha 效果比較。結果發現,該方法可以從視線不一致的 alpha 蒙版中恢復缺失的部分不透明度,例如貓的鬍鬚,如第一行所示,而 IBOH 則會失敗,並出現嚴重的偽影。該方法可以產生比 NOPC 更銳利(sharp)的 alpha 蒙版,後者會在頭髮周圍產生嚴重的偽影。而 NeRF 在富有挑戰性的 Hairstyle 2 資料集上失敗了。

在定量評估方面,研究者使用 PSNR、LPIPS 和 SSIM 作為指標定量評估了幾種方法。如下表 1 和表 2 所示,ConvNeRF 在 RGB 和 alpha 結果上都實現了顯著的效能提升。

下表 3 展示了在半透明(即 0 < α < 1)區域上,所有資料集的平均 PSNR,該方法實現了 SOTA 效能。


IT145.com E-mail:sddin#qq.com