首頁 > 科技

年輕的LeCun、吳恩達長啥樣?升級版StyleGAN告訴你

2021-06-25 19:53:31

機器之心報道

機器之心編輯部

來自以色列特拉維夫大學的研究者在生成影象方面又有了新的升級,所用方法在保留源影象身份的同時,在細節編輯上實現了更精細的效果。

英偉達提出的風格遷移模型 StyleGAN 系列,一直是人們用來進行各類腦洞畫圖實驗的流行工具。從生成二次元「老婆」,照片修圖,到人物的卡通化,最近幾年基於這種技術的應用不一而足。

然而 StyleGAN 也一直有著自己的不足,近年來的各種改進也未能讓其在反向生成、細節編輯上實現精細的效果。什麼時候我們才能讓 AI 隨心所欲地修改真人照片呢?

今年 6 月,這樣的研究終於出現了。

在以色列特拉維夫大學的論文《Pivotal Tuning for Latent-based Editing of Real Images》中,研究人員通過新增一個簡短的訓練過程,讓 StyleGAN 有了煥然一新的升級。

它的生成效果是這樣的,生成更年輕和微笑的 Yann LeCun:

還有更年輕和麵部旋轉後的吳恩達:

下圖中,輸入小威廉姆斯、小羅伯特 · 唐尼以及小丑等人的照片,經過處理後,生成了微笑、換髮型、老年、張嘴、去鬍鬚、擺 pose 等多樣化的形象:

不得不說,效果看起來真不錯!

研究介紹

最近,一波先進的面部編輯技術被提出,這些技術利用預訓練 StyleGAN 的影象生成能力。要用這種方法成功地編輯影象,必須首先將影象投影到預先訓練好的生成器域中。然而,事實證明,StyleGAN 的潛在空間在失真和可編輯性之間產生了內在的折衷,即在保持原始外觀和改變其某些屬性之間需要折中。

實際上,這意味著將保留 ID 的面部潛在空間編輯應用於生成器域之外的面部仍然具有挑戰性。在本文中,來自以色列特拉維夫大學的研究者提出了一種方法來彌補這一差距。該研究稍微改變了生成器,使得一個域外的影象如實的被對映到一個域內的潛碼。該研究一個關鍵的調整,一個簡短的訓練過程,保留域內潛在區域的編輯質量,同時改變其描述的身份和外觀。

論文地址:https://arxiv.org/pdf/2106.05744.pdf

GitHub 地址:https://github.com/danielroich/PTI

Colab 地址:

https://colab.research.google.com/github/danielroich/PTI/blob/main/notebooks/inference_playground.ipynb

在研究者提出的 PTI(Pivotal Tuning Inversion)中,初始反向潛碼充當樞軸(pivotal),你可以圍繞它微調生成器。同時,正則化項保持附近的身份資訊不變,保持局部資訊影響。這種訓練過程最終會改變身份的外觀特徵,而不會影響編輯能力。為了補充這一點,該研究進一步表明,樞軸調整(pivotal tuning)還可以調整生成器以適應多個人臉,同時在域的其餘部分引入可忽略的失真。

PTI 方法的示意圖。

該研究主要是使用 StyleGAN 為真實影象提供生成高質量的編輯。由於 StyleGAN 的特性,可以對其生成的外觀進行細微的局部更改,而不會損害其強大的編輯功能。因此,給定一張影象,可能外觀看起來不正常(例如一個人處在極端的照明條件下,或濃妝豔抹,或誇張的髮型和頭飾),該研究建議在生成器的域內找到最近的可編輯點。然後這些點可以被拉向目標,對周圍的域影響微乎其微,對其他域的影響也微乎其微。

實驗

實驗採用 StyleGAN2 生成器 ,對於面部影象,研究者使用在 FFHQ 資料集上預訓練的生成器進行處理,並使用 CelebA-HQ 資料集進行評估。此外,該研究還收集了一些其他名人的影象,以突出顯示該研究保持身份的能力。

研究者採用以下指標:畫素級距離 MSE、感知相似度 LPIPS 、結構相似度 MS SSIM 、以及利用預訓練的人臉識別網路實現身份相似度。結果如下表所示。可以得出在每個指標上,該研究都是最佳得分。

如下圖所示,即使不考慮可編輯性,該研究的方法對所有的例子都獲得了較好的重建效果,特別是域外的例子,因為該方法是唯一可以成功的重建具有挑戰性的細節,如臉部繪畫或手等細節。

此外,該研究提出的方法還能夠重建很多細節,如妝容、光線、皺紋等。

圖 6 顯示了對 CelebA-HQ 資料集的編輯比較,演示了姿勢(頂部)和微笑收斂(底部)編輯。由結果可得在 SG2 W + 上的編輯不會產生所需的效果,例如,底部行中的嘴沒有閉合。SG2 和 e4e 實現了更好的編輯,但失去了原有的身份。PTI 在保持身份的同時實現了高質量的編輯。


IT145.com E-mail:sddin#qq.com