首頁 > 科技

視訊臺詞現在不用背也不用配,連對口型都免了

2021-06-15 15:08:55

現在,給視訊人物「喂」一段音訊,他就能自己對口型了,就像這樣:

00:07

原聲其實是出自這裡:

00:07

這是一種利用音訊生成視訊人物口型的新方法,出自慕尼黑工業大學Wojciech Zielonka的碩士論文。

用這種新方法對口型,只需2-3分鐘就能夠訓練目標角色,生成的視訊保留了目標角色的說話風格

並且不受語音來源、人臉模型和表情的限制

新方法與Neural Voice Puppetry、Wav2Lip、Wav2Lip GAN的生成效果,對比起來是這樣的:

圖片

在保持較低脣部誤差的同時,生成影象質量高於其他方法。

原理簡介

具體來說,作者提出了一個新的框架,它由音訊特徵提取、投影網路、變形網路、顏色網路、組成網路幾個部分組成。

圖片

首先,將輸入音訊轉換為MFCC(梅爾頻率倒譜系數),並進行特徵提取

利用投影網路進行近似轉換,將提取的特徵嵌入到不同的低維空間。

為了順利生成視訊,研究人員還引入了一維卷積網路和一個衰減模組,以保持時間上的連貫性。

在變形網路中,作者使用了三維可變形人臉模型(3DMM),這是一種基於一組人臉形狀和紋理的統計模型,將人臉表示為固定的點數。

圖片

將3DMM的網格輸入變形網路,該網路能通過音訊訊號產生優化的3D形狀。

再將其柵格化傳遞給色彩網路,每個三維點經過位置編碼,並與音訊嵌入相關聯,最終通過色彩網路輸出影象。

最後,用2D膨脹卷積網路建立的組成網路,將渲染的人臉被無縫地嵌入到背景中。

圖片

可以看到從3D形狀到最終合成輸出的效果:

圖片

這項研究採用了最小絕對值偏差(L1)和感知損失(VGG)這兩個損失函數的組合。

先利用L1損失網路找到粗略影象,然後在訓練過程中,通過VGG損失進行完善並學習細節。

效能如何?

研究人員使用資料集對模型進行了測試,資料集中共有6個人物。

圖片

其中,模型用於Krista和Obama時效果更好,生成影象與ground truth最為接近。

圖片

而Ayush的誤差較高,作者表示,這可能是受到訓練視訊質量的影響

圖片

從左至右依次是原視訊、配音視訊、原聲視訊:

00:12

作者還對色彩網路的效能進行了評估,結果顯示,即使3D形狀在隨機幀之間沒有很大變化,色彩網路也能作出正確的預測。

圖片

論文中還給出了與其他方法的定量對比情況,整個資料集的影象質量誤差如下:

圖片

在影象質量的3個指標中,新方法都優於其他方法

不過新方法也不是一直可靠,比如在合成時,也可能會產生位移誤差,出現雙下巴等。

圖片

此外,它還存在一定的侷限性

由於3DMM並沒有明確地對牙齒建模,目前的方法是將兩個嘴脣封閉起來。因此,頂點的數量並沒有改變,特徵基數仍然成立。

擁有詳細的牙齒幾何形狀,可以更好地捕捉說話時的面部運動,當然這在很大程度上取決於人們的說話風格。

此外,一個更大的侷限是,在場景或演員變化時,就需要重新訓練模型,並且只支援英語音訊。

網友熱議

作者把效果視訊發在了Reddit上,引起了網友們的熱議。

圖片

不少網友發現,視訊人物的脣部動作,似乎效果不佳

圖片

除了「美國」之外,他的口型看起來對不上。

圖片

更多的網友對於這項技術的應用,提出了質疑。

這與在奧巴馬靜音的視訊上播放音訊有何不同?

圖片

就像這位網友所說,類似這樣的人臉生成技術,很多都被用於造假,因此一直存在著倫理爭議

網友們也為此感到擔憂:

有時我會想到這些技術是如何被濫用的,這讓我對未來感到有點難過。我們需要虛假視訊檢測器,不知道這場戰鬥還要走多遠。

圖片

擁有權利的同時,也被賦予了重大的責任!

圖片

如果這類應用盛行起來,人們也許不會相信視訊了。

圖片

不過也有網友提到:

好在,就目前來說,檢測比生成要要容易得多,效果也更好。

圖片

對於這項研究,作者表示,

它具有商業前景。比如,在未來,演員可以出售自己的(視訊)化身。僅需語音操縱,就能夠製作電影或遊戲,還可以使用根據文字生成的語音。

圖片

你希望這樣的技術用在電影和遊戲裡嗎?


IT145.com E-mail:sddin#qq.com