年輕的LeCun、吳恩達長啥樣？升級版StyleGAN告訴你

2021-06-25 19:53:31

機器之心報道

機器之心編輯部

來自以色列特拉維夫大學的研究者在生成影象方面又有了新的升級，所用方法在保留源影象身份的同時，在細節編輯上實現了更精細的效果。

英偉達提出的風格遷移模型 StyleGAN 系列，一直是人們用來進行各類腦洞畫圖實驗的流行工具。從生成二次元「老婆」，照片修圖，到人物的卡通化，最近幾年基於這種技術的應用不一而足。

然而 StyleGAN 也一直有著自己的不足，近年來的各種改進也未能讓其在反向生成、細節編輯上實現精細的效果。什麼時候我們才能讓 AI 隨心所欲地修改真人照片呢？

今年 6 月，這樣的研究終於出現了。

在以色列特拉維夫大學的論文《Pivotal Tuning for Latent-based Editing of Real Images》中，研究人員通過新增一個簡短的訓練過程，讓 StyleGAN 有了煥然一新的升級。

它的生成效果是這樣的，生成更年輕和微笑的 Yann LeCun：

還有更年輕和麵部旋轉後的吳恩達：

下圖中，輸入小威廉姆斯、小羅伯特 · 唐尼以及小丑等人的照片，經過處理後，生成了微笑、換髮型、老年、張嘴、去鬍鬚、擺 pose 等多樣化的形象：

不得不說，效果看起來真不錯！

研究介紹

最近，一波先進的面部編輯技術被提出，這些技術利用預訓練 StyleGAN 的影象生成能力。要用這種方法成功地編輯影象，必須首先將影象投影到預先訓練好的生成器域中。然而，事實證明，StyleGAN 的潛在空間在失真和可編輯性之間產生了內在的折衷，即在保持原始外觀和改變其某些屬性之間需要折中。

實際上，這意味著將保留 ID 的面部潛在空間編輯應用於生成器域之外的面部仍然具有挑戰性。在本文中，來自以色列特拉維夫大學的研究者提出了一種方法來彌補這一差距。該研究稍微改變了生成器，使得一個域外的影象如實的被對映到一個域內的潛碼。該研究一個關鍵的調整，一個簡短的訓練過程，保留域內潛在區域的編輯質量，同時改變其描述的身份和外觀。

論文地址：https://arxiv.org/pdf/2106.05744.pdf

GitHub 地址：https://github.com/danielroich/PTI

Colab 地址：

https://colab.research.google.com/github/danielroich/PTI/blob/main/notebooks/inference_playground.ipynb

在研究者提出的 PTI（Pivotal Tuning Inversion）中，初始反向潛碼充當樞軸（pivotal），你可以圍繞它微調生成器。同時，正則化項保持附近的身份資訊不變，保持局部資訊影響。這種訓練過程最終會改變身份的外觀特徵，而不會影響編輯能力。為了補充這一點，該研究進一步表明，樞軸調整（pivotal tuning）還可以調整生成器以適應多個人臉，同時在域的其餘部分引入可忽略的失真。

PTI 方法的示意圖。

該研究主要是使用 StyleGAN 為真實影象提供生成高質量的編輯。由於 StyleGAN 的特性，可以對其生成的外觀進行細微的局部更改，而不會損害其強大的編輯功能。因此，給定一張影象，可能外觀看起來不正常（例如一個人處在極端的照明條件下，或濃妝豔抹，或誇張的髮型和頭飾），該研究建議在生成器的域內找到最近的可編輯點。然後這些點可以被拉向目標，對周圍的域影響微乎其微，對其他域的影響也微乎其微。

實驗

實驗採用 StyleGAN2 生成器，對於面部影象，研究者使用在 FFHQ 資料集上預訓練的生成器進行處理，並使用 CelebA-HQ 資料集進行評估。此外，該研究還收集了一些其他名人的影象，以突出顯示該研究保持身份的能力。

研究者採用以下指標：畫素級距離 MSE、感知相似度 LPIPS 、結構相似度 MS SSIM 、以及利用預訓練的人臉識別網路實現身份相似度。結果如下表所示。可以得出在每個指標上，該研究都是最佳得分。

如下圖所示，即使不考慮可編輯性，該研究的方法對所有的例子都獲得了較好的重建效果，特別是域外的例子，因為該方法是唯一可以成功的重建具有挑戰性的細節，如臉部繪畫或手等細節。

此外，該研究提出的方法還能夠重建很多細節，如妝容、光線、皺紋等。

圖 6 顯示了對 CelebA-HQ 資料集的編輯比較，演示了姿勢（頂部）和微笑收斂（底部）編輯。由結果可得在 SG2 W + 上的編輯不會產生所需的效果，例如，底部行中的嘴沒有閉合。SG2 和 e4e 實現了更好的編輯，但失去了原有的身份。PTI 在保持身份的同時實現了高質量的編輯。

年輕的LeCun、吳恩達長啥樣？升級版StyleGAN告訴你

熱門文章