美圖影像實驗室(MT Lab)利用 StyleGAN 技術落地了多個頭發生成項目並在美圖秀秀及海外產品 AirBush 上線劉海生成、髮際線調整與稀疏區域補發等功能。媽媽再也不用擔心我脫髮了。
當逐漸後移的髮際線和日益稀疏的劉海成為焦慮的源頭, 為了滿足這屆使用者對於濃密秀髮的嚮往,多年深耕人工智慧領域的美圖公司技術大腦——美圖影像實驗室(MT Lab)基於在深度學習領域積累的技術優勢,落地了多個頭發生成項目並實現了高清真實的頭髮紋理生成,目前已率先在美圖旗下核心產品美圖秀秀及海外產品 AirBrush 上線劉海生成、髮際線調整與稀疏區域補發等功能,滿足使用者對髮型的多樣化需求。
其中,劉海生成功能可以基於自定義的生成區域,生成不同樣式的劉海(如圖 1.1-1.3)。
圖 1.1:劉海生成(左:原圖,右:全劉海生成效果圖)
圖 1.2:劉海生成(左:原圖,右:全劉海生成效果圖)
髮際線調整功能在保持原有髮際線樣式的情況下,可以對髮際線的不同高度進行調整(如圖 2.1-2.2):
頭髮編輯作為一般的生成任務,在落地實踐過程中仍面臨以下幾個亟待突破的關鍵技術瓶頸:
首先是生成資料的獲取問題。以劉海生成任務為例,在生成出特定款式的劉海時,一個人有無劉海的資料是最為理想的配對資料,但這種類型的真實資料獲取的可能性極低。與此同時,如果採用針對性收集特定款式劉海資料,以形成特定屬性非配對資料集的方式,那麼獲取高質量且多樣式的資料就需要耗費較高的成本,基本不具備可操作性;
其次是高清影象細節的生成問題。由於頭髮部位擁有複雜的紋理細節,通過 CNN 難以生成真實且達到理想狀態的髮絲。其中,在有配對資料的情況下,雖然可以通過設計類似 Pixel2PixelHD[1]、U2-Net[2] 等網路進行監督學習,但目前通過該方式生成的影象清晰度仍然非常有限;在非配對資料情況下,一般通過類似 HiSD[3]、StarGAN[4]、CycleGAN[5] 的方式進行屬性轉換生成,利用該方式生成的圖片不僅清晰度不佳,還存在目標效果生成不穩定、生成效果不真實等問題。
針對上述情況,MT Lab 基於龐大的資料資源與突出的模型設計能力,藉助 StyleGAN[6] 解決了頭髮生成任務所面臨的配對資料生成與高清影象細節兩大核心問題。StyleGAN 作為當前生成領域的主要方向—GAN(生成式對抗網路)在影象生成應用中的主要代表,是一種基於風格輸入的無監督高清影象生成模型。StyleGAN 能夠基於 7 萬張 1024*1024 的高清人臉影象訓練資料 FFHQ,通過精巧的網路設計與訓練技巧生成清晰逼真的影象效果。此外,StyleGAN 還能基於風格輸入的方式擁有屬性編輯的能力,通過隱變數的編輯,實現影象語意內容的修改。
StyleGAN 生成配對資料最為直接的方式就是在 w + 空間直接進行相關屬性的隱向量編輯,生成相關屬性,其中隱向量編輯方法包括 GanSpace[7]、InterFaceGAN[8] 及 StyleSpace[9] 等等。但是,這種影象生成方式通常隱含著屬性向量不解耦的情況,即在生成目標屬性的同時往往伴隨其他屬性(背景和人臉資訊等)產生變化。
因此,MT Lab 結合 StyleGAN Projector[6]、PULSE[10] 及 Mask-Guided Discovery[11] 等迭代重建方式來解決生成頭髮配對資料的問題。該方案的主要思路是通過簡略編輯原始圖片,獲得一張粗簡的目標屬性參考影象,將其與原始影象都作為參考影象,再通過 StyleGAN 進行迭代重建。
以為頭髮染淺色髮色為例,需要先對原始圖片中的頭髮區域染上統一的淺色色塊,經由降取樣獲得粗略編輯簡圖作為目標屬性參考影象,在 StyleGAN 的迭代重建過程中,生成圖片在高解析度尺度下與原始圖片進行相似性監督,以保證頭髮區域以外的原始資訊不發生改變。
另一方面,生成圖片通過降取樣與目標屬性參考影象進行監督,以保證生成的淺色髮色區域與原始圖片的頭髮區域一致,二者迭代在監督平衡下生成期望中的影象,同時也獲得了一個人有無淺色頭髮的配對資料(完整流程參考下圖 4)。
值得強調的是,在該方案執行過程中既要保證生成圖片的目標屬性與參考影象一致,也要保證生成影象在目標屬性區域外與原始圖片資訊保持一致;還需要保證生成影象的隱向量處於 StyleGAN 的隱向量分佈中,才能夠確保最終的生成影象是高清影象。
圖 4 :染淺色頭髮 StyleGAN 迭代重建示意圖
此外,基於該方案的思路,在頭髮生成領域還能獲取到髮際線調整的配對資料(如下圖 5)、劉海生成的配對資料(如下圖 6)以及頭髮蓬鬆的配對資料(如下圖 7)。
基於迭代重建,還能夠獲得配對資料所對應的 StyleGAN 隱向量,通過隱向量插值的方式還能實現資料增益,進而獲得足夠數量的配對資料。
以髮際線調整的配對資料為例,如下圖 8 所示,(a)和(g)是一組配對資料,(c)和(i)是一組配對資料,在每一組配對資料間,可以通過插值獲得髮際線不同程度調整的配對資料。如(d)和(f)分別是(a)和(g)、(c)和(i)之間的插值。
同樣地,兩組配對資料間也可以通過隱向量插值獲得更多配對資料。如(b)和(h)分別是(a)和(c)、(g)和(i)通過插值獲得的配對資料。此外,通過插值獲得的配對資料也能夠生成新的配對資料,如(e)是(b)和(h)通過差值獲得的配對資料,基於此可以滿足對理想的髮際線調整配對資料的需求。
基於 StyleGan 的迭代重建獲得配對資料後,就可以通過 pixel2piexlHD 模型進行有監督的學習訓練,這種 image-to-image 的方式相對穩定且具有穩健性,但生成影象的清晰度還無法達到理想的效果,因此選擇通過在 image-to-image 模型上採用 StyleGAN 的預訓練模型來幫助實現生成細節的提升。傳統的 StyleGAN 實現 image-to-image 的方式是通過 encoder 網路獲得輸入圖的影象隱向量,然後直接編輯隱向量,最後實現目標屬性影象生成,但由這種方式生成的影象與原影象比對往往相似度較低,無法滿足基於原影象進行編輯的要求。
因此 MT Lab 對這種隱向量編輯的方式進行了改進,一方面直接將原影象 encode 到目標屬性的隱向量,省去進行中間隱向量編輯的步驟;另一方面將 encoder 網路的特徵與 StyleGAN 網路的特徵進行融合,最終通過融合後的特徵生成目標屬性影象,以最大限度保證生成影象與原影象的相似度,整體網路結構與 GLEAN[12] 模型非常相似,該方式兼顧了影象高清細節生成與原圖相似度還原兩個主要問題,由此也完成了高清且具有真實細節紋理的頭髮生成全流程,具體如下圖 9:
基於 StyleGAN 編輯生成方案能夠在降低生成任務方案設計難度的同時,提高生成任務的研發效率,實現生成效果的大幅度提升,同時也具有很高的擴展性。其中,結合 StyleGAN 生成理想頭髮配對資料的方式極大地降低了影象編輯任務的難度,比如將該方案關注的屬性拓展到頭髮以外,就能夠獲得更多屬性的配對資料,例如五官更換的配對資料(如下圖 10),藉此可以嘗試對任何人臉屬性編輯任務進行落地實踐。
此外,藉助 StyleGAN 預訓練模型實現 image-to-image 的方式能夠保證生成影象的清晰度,因此還可以將其推廣到如影象修復、影象去噪、影象超解析度等等更為一般的生成任務中。
圖 10:五官更換的配對資料:原圖(左),參考圖(中),結果圖(右)
目前, MT Lab 已在影象生成領域取得新的技術突破,實現了高清人像生成並達到精細化控制生成。在落地頭髮生成以外,MT Lab 不僅實現了牙齒整形、眼皮生成、妝容遷移等人臉屬性編輯功能,還提供了 AI 換臉、變老、變小孩、更換性別、生成笑容等等風靡社交網路的新鮮玩法,一系列酷炫玩法為使用者帶來了更有趣、更優質的使用體驗,也展現了其背後強大的技術支援與研發投入。
未來,深度學習仍將是 MT Lab 重點關注的研究領域之一,也將持續深入對前沿技術的研究,不斷深化行業技術創新與突破。