一段語音生成說話視訊，連發際線都分好幾種，網友：利好視訊博主

2021-06-15 18:03:59

楊淨發自凹非寺量子位報道 | 公眾號 QbitAI

只需一段語音，就能生成說話視訊。

就像這樣。

可以看到，表情、動作、神情全都線上，還有不同的穿搭。

就連發型、甚至髮際線，都可以不同。（手動狗頭）

視訊裡的主人公，是美國一著名主持人John Oliver，這是他主持的一檔節目《Last Week Tonight with John Oliver 》。

而這樣一個視訊生成效果，在Reddit上熱度達580+。

不少網友表示：那這樣，是不是視訊博主就從此省事了？！

彆著急，先康康研究怎麼說。

論文詳情

能實現以上效果的，是一個NWT生成器，用表徵學習來實現音視訊生成。

它由兩個模型組成。

一個用於離散潛在表示的視訊自動編碼器dVAE-Adv。另一個自迴歸先驗模型，用來生成新視訊。

此外，這一生成器可以控制生成的視訊中的潛在屬性，這些屬性在資料中是沒有標註的。

首先，自動編碼器dVAE-Adv，將視訊幀從256×224壓縮到一個16×14的潛在空間。

生成的每個潛在網格元素稱為Memcode，每個Memcode在畫素域中攜帶了大約768個元素的資訊。

而自迴歸模型則作為編解碼器模型，能從離散分類分佈中自動取樣，將音訊轉化為視訊。

研究人員採用的資料集，則是來自這位主持人的節目——《Last Week Tonight with John Oliver (LWT)》組成。

不過這些視訊樣本是經過處理的，研究人員將其分成了16127個視訊片段，平均長度為7.46秒。

最終在主觀評價測試中，這一方法都明顯優於以往的脣語、臉部生成任務。

研究人員表示，這個研究是對話式人類視訊合成技術上的一個新突破，展現了未來將普遍應用的潛力。

srds（雖然但是），目前這個模型還是有一定侷限性。

比如，不能用其他人聲音來生成。

對此作者回應道，嘗試過，但脣語同步會有影響。

還有網友注意到，視訊中人的手很奇怪。

作者則表示，跟GAN出現的問題不同，主要是由自迴歸生成過程中的錯誤分類造成的。

接下來，他們將進一步擴大資料集和模型，來處理不同個體。還有一個想法就是，給定一個框架或部分影象，模型能夠模仿一個特定的情節。

論文地址：https://arxiv.org/pdf/2106.04283.pdf

參考連結：[1]https://next-week-tonight.github.io/NWT_blog/[2]https://www.youtube.com/watch?v=HctArhfIGs4