首頁 > 軟體

英特爾居然也來搞GTA5美化MOD了……?

2021-05-30 17:01:13

最近有玩家做了這麼一張梗圖:PS2平臺有三款《俠盜獵車手》(GTA),而 GTA5居然硬是扛起了三代 PlayStation 平臺……

(其實準確來說,PS2平臺上一共有五部 GTA 遊戲,包括三部正傳和兩部外傳。)

惡搞沒惡意,搞搞別生氣。這張梗圖能夠傳播,也是因為 GTA5 實在是電子遊戲領域的常青樹:自從2013年在 PS3/Xbox360 平臺釋出,包括單機和線上模式 DLC 的總銷量已經突破1.4億份……

這邊開發公司R星遲遲不發新作,那邊電腦遊戲平臺的CPU/顯示卡硬體和顯示技術已經更新了好幾代。因此,GTA5 美化 MOD 也成為了玩家熱衷的修改方向。從真實汽車模型,到更大範圍的地圖和視覺效果修改,多種多樣的 MOD 顯著增強了 GTA5 的生命力,讓這款已經快要10歲的遊戲仍能令玩家感到新意。

開發 MOD 的大多是國外大神,因為涉及到違反使用者協議的灰色地帶,MOD 開發工作通常是個人非營利性質的。不過最近,我們非常詫異地發現:竟然英特爾也在「官方」開發 GTA5 美化 MOD!

↑ 可能略微有點標題黨……實際情況是:英特爾實驗室耗時多年研發了 EPE (Enhancing Photorealisim Enhancement),一項基於深度學習卷積神經網路的合成影象逼真性演算法。它能夠逐幀優化 GTA5 輸出的原始畫面,配合多種第三方街景資料庫,生成不同風格的擬真遊戲畫面。

最近英特爾實驗室 (Intel Labs) 釋出了一篇論文,介紹了他們在深度學習影象逼真度提升方面的最新進展。而他們的實驗過程,採用的就是 GTA5 的影象。英特爾的研究員設計了一套多模組的卷積神經網路架構,對 GTA5 和第三方城市街景影象庫的資料進行學習。

玩家大神製作的 MOD,主要依靠事先調換圖形素材、更新渲染引擎、增加光追支援等;而英特爾的思路是:直接用未修改的遊戲的原始視訊和資料輸出,輸入到深度學習系統裡,實時演算出優化後的影象。

論文作者 Vladlen Koltun 介紹這套系統的工作方式:它可以接入到遊戲上,你可以把它理解為 GTA5 的影象後處理系統。

(左邊為 GTA5 原始影象,右邊為美化後)

動圖:

論文作者之一的 Koltun,是英特爾智慧系統部門的首席科學家。他在歐洲圖形學大會 Eurographics 2021 上透露,EPE 演算法在英特爾實驗室費時兩年時間研發,效果此前從未在外部公開過。

「(EPE)屬於那種需要長時間投入,幾個月內都不會產出結果,研究時長以年為單位的那種研究,」Koltun 表示,「在(影象合成逼真性)的問題上,想要做出一點能拿得出手的結果並不難,找幾張效果好的照片,放到論文裡就完了;但要發明一種真的能用的方案 (something that really, really works),是非常艱難的。」

(這工作確實辛苦,但至少論文作者有理由上班時間摸魚打 GTA5 了 )

Vladlen Koltun 在 Eurographics 大會上講述 EPE 演算法工作原理

接下來讓我們深入瞭解一下,英特爾實驗室的這套 「GTA5 美化 MOD」的具體工作方式。

老「遊戲」,新「玩法」

GTA5 已經是一款快10年的老遊戲了,但無論是在單機還是線上模式中,玩家總能發明出各種有趣或稀奇古怪的新玩法……

同樣,畫面美化 MOD 也是一個伴隨 GTA5 存在了很多年的領域了,「民間」的技術方向也就那麼幾種。而這次,英特爾實驗室用了新「玩法」,在畫面逼真性上實現了前所未有的突破。

EPE 演算法的訓練原理如下圖:

簡單來說,EPE 整合了三個獨立的神經網路,處理三種不同的資料來源:GTA5 自帶渲染引擎輸出的 buffer 緩衝資料,遊戲直出畫面,以及第三方街景資料庫的影象。

1)GTA5 遊戲自帶的渲染引擎,能夠輸出一組名為 G-buffer 的資料,其中包括畫面中物體的種類、和玩家視角攝像頭之間的距離、表面材質、光滑程度、反照率、光照資料等等。

這些資料,輸入到一套卷積神經網路資料流當中,提取出各類資料的遮罩圖,用於訓練神經網路;然後經過一系列專門設計的殘差模組,輸出不同規模的張量特徵資料。

2)藉助前一步的訓練結果,訓練一個影象增強神經網路,然後把遊戲直出畫面,輸入這個神經網路裡,得到增強後的影象:

3)真正的影象翻譯工作發生在這一步:遊戲直出畫面、增強影象,和第三方街景資料庫的相似影象,一起輸入到一個感知辨別器(神經網路),經過一系列計算,生成感知特徵圖、標籤圖,以及相關的插值等資料,最終「翻譯」合成為一張圖。

這一部分也採用了對抗模型的設計,經過持續的訓練,最終輸出的圖片能夠準確還原遊戲直出畫面當中的物體構成,並且完美轉移外部資料庫影象的風格。

比如,下圖為英特爾實驗室用 GTA5 和 Cityscapes 資料庫結合生成的畫面風格。由於 Cityscapes 的影象資料大多來自於德國,具有獨特的畫面風格,所以你可以看出來,「美化」出來的結果似乎偏綠,有些陰冷;

並且,由於德國植被更加茂盛,你可以看到 GTA5 裡聖安地列斯(原型為洛杉磯)光禿、乾燥、偏黃的山丘,渲染出了濃密的綠色植被。

技術創新

根據矽星人的理解,這篇論文提出的影象翻譯方法有幾個創新之處。

正如前述,傳統的 GTA5 美化 MOD 的實現思路,都需要對遊戲檔案進行重度修改,有可能造成檔案損壞,而且很難在多人線上模式下使用,以及也涉及違反遊戲使用協議的灰色地帶。

而 EPE 的思路不同之處,在於它直接在遊戲輸出畫面的基礎上進行美化,不涉及遊戲檔案修改,也就不違反使用協議。(當然前面也提到,在訓練過程中它確實也需要」監聽「遊戲系統運行時渲染引擎輸出的資料。

當然,EPE 也不是第一個採用深度學習思路進行 GTA5 畫面優化的技術。

在此之前,UC Berkeley 和 Adobe 研究院共同開發的 CUT (Contrastive Unpaired Translation) ,以及南洋理工大學、UCB、商湯共同開發的 TSIT (Two-Stream Image-to-image Translation) ——這兩個演算法都是此前世界領先的影象翻譯演算法。

但至少在 GTA5 上,這兩個演算法都存在嚴重的影象失真情況。比如,CUT 在渲染尺寸較小、和周遭環境相對獨立的物體(比如樹木、告示牌、行人等)時會出現重影,而且時序穩定性不佳;

而 TSIT 演算法渲染的結果,會在畫面上部的天空區域中出現嚴重失真,增加一些不存在的植被,

英特爾實驗室的科學家認為,這些演算法失真的情況,可能是由訓練時採用的第三方資料庫所導致的。比如攝像頭的角度太低導致遠景中的樹木佔滿螢幕上部。如下圖所示,在 Cityscapes 資料庫的很多照片裡,植被的區域很大,而通常 GTA5 畫面中的植被很小。

甚至在 Cityscapes 資料庫中,由於資料採集車上有一個賓士車標,其它演算法在渲染的時候也會誤以為這個車標也是道路特徵的一部分:

在訓練 EPE 的時候,英特爾的團隊故意縮小了神經網路的視野範圍,讓它可以聚焦於畫面中特定的物體。EPE 在 GTA5 影象逐幀美化的真實度、時序穩定性等方面達到了目前最先進的水平,顯著優於 CUT、TSIT 等基於深度學習的影象到影象翻譯演算法:

因為演算法的設計,它還有一點「即插即用」的感覺,可以接入各種各樣的外部資料庫,實現不同風格的美化結果。

比如 Mapillary Vistas,是一個來自全世界各地的街景影象資料庫,風格更加多樣,色彩更鮮明。這種風格也可以通過 EPE 演算法翻譯到 GTA5 的畫面裡,效果更加接印象中聖安地列斯的樣子:

下圖左邊為遊戲直出畫面,右邊為採用 Mapillary Vistas 作為目標風格的美化結果,可以看出畫面色彩飽和度有很大提升;為了降低遊戲渲染壓力而在遠景加入的迷霧,也得到了優化。

網友評價:什麼?這居然不是真的?

5月11日,英特爾實驗室把 EPE 的介紹視訊發到了 YouTube上。只用了半個月,這個視訊的觀看量已經超過了270萬……

大部分網友評價都是從非專業角度出發的,但都對團隊演示的渲染結果表示震驚……

網友 Fat Tabby 留言:如果你給我看這個視訊並且跟我說是行車記錄儀拍出來的,我應該會相信你。

網友 G Luong 表示:這才是真正的影象擬真。其它所有的畫面美化 MOD 其實只是增加反射,並且讓每一條路都變得很潮溼而已。

也有好幾位眼尖的玩家發現,如果按照 Cityscapes 的風格進行美化,出來的畫面風格其實倒是跟 GTA4(設定在 Liberty City,以紐約為原型,風格較為陰暗)。

網友 OK DOK 表示,怪不得當初 GTA4 出來的時候,人們都驚訝於一款遊戲居然能如此」真實「。

網友 Cosine 說的很對:沒有那麼炫酷的反射,沒有過飽和的顏色和超高的亮度,才是最」真實「的遊戲。

說來有趣,英特爾跟 GTA5 已經是老朋友了——當然,指的不是遊戲,而是研究層面。

早在2016年,英特爾實驗室和德國達姆施塔特工業大學就在嘗試用 GTA5 做自動駕駛方面的研究。當時自動駕駛已經成為新的技術趨勢,但出於現實成本等因素,不是所有人都能獲得大量真實道路的視覺資料用於研究。

所以英特爾和該大學組建了團隊,試圖從 GTA5 等遊戲中提取接近於真實道路情況的資料,幫助自動駕駛技術訓練。他們當時還發布了一篇論文 Playing for Data: Ground Truth from Computer Games——

當年的那個團隊裡,就有今天這篇 EPE 論文裡的 Vladlen Koltun。

所以今天我們可以說,這位英特爾智慧系統部門的首席科學家,也是 GTA5 美化 MOD 領域的大神了!

你們說,Koltun 會不會也跟大家一樣,焦急等待著R星釋出 GTA6 呢?

當然,如果 GTA6 也能用上類似的深度學習影象擬真技術的話,矽星人還是願意再等一等的……

——轉念一想,你們覺得 GTA6 還不釋出,會不會真的是因為R星用了某種超級前沿的技術,目前的主機效能——即使是 PS5——都還無法實現?


IT145.com E-mail:sddin#qq.com