首頁 > 硬體

AMD RX 6000架構揭祕:獨家雞血、飛昇54%

2020-11-19 04:00:46

紙面釋出多日之後,AMD RX 6000系列顯示卡今天終於開始解禁上市了,首發兩款型號,RX 6800 4599元,RX 6800 XT 5099元,下個月2號還會有旗艦級的RX 6900 XT 7999元。

首發評測請移步——RTX 3080出生兩個月卒!Radeon RX 6800/6800 XT首發評測

它們都採用了升級版的RDNA 2底層架構,均基於Navi 21 GPU核心,也常被叫做Big Navi,最多擁有80組計算單元、5120個流處理器、16GB GDDR6視訊記憶體,支援PCIe 4.0。

而在7nm工藝不變、核心規模翻番、頻率大幅提升的同時,整卡功耗依然保持在最多300W。

本文中,我們重點講講RDNA 2的架構設計,以及兩項關鍵圖形技術。

RDNA 2雖然是RDNA架構的更新版本,並不是完全重新設計,但是它帶來的突破和提升是驚人的,也完全實現了專案起步之初設立的看似不可能的目標。

這就是:16個月之內,效能提升1倍,能效提升至少50%,完整支援DX12 Ultimate等技術特性,支援硬體光線追蹤。

在微架構上,RDNA 2充分借鑑了Zen CPU的世界級設計思路(訊息稱Zen開發團隊直接介入了RDNA 2設計),整體得以更加精煉、高效。

縱向比較的話,在同等功耗水平下,RDNA 2每個計算單元的執行頻率提升了足足30%,標稱加速頻率最高2250MHz,實際執行中其實能夠跑到2450MHz!

橫向比較的話,在同等頻率下,RDNA 2每個計算單元的功耗可以降低50%,也就是省電一半。

以上是RDNA、RDNA 2兩代架構圖,可以發現整體佈局沒有太大變化,當然各個功能模組都是調整優化過的,而最突出的,一是增加了獨立的Infinity Cache快取記憶體,二是在每個計算單元內加入了專用的光追加速器Ray Accelerator。

至於RDNA 2架構的底層細節,比如說計算單元的變化,AMD這次沒有給出更多資料,只是簡單提到了幾點,包括精簡TLB以降低延遲、重新設計32位元畫素流水線並支援HDR格式、優化幾何分派與曲面細分、全方位精細時鐘門控、頻率樹分離與門控、最小化資料轉移、重新平衡流水線、高效能庫等等,但沒有任何圖示。

不過也好,太深入太專業的東西咱們也鑽研不夠,直接享受成果就是了。

Infinity Cache快取記憶體的加入,以及一二級快取的調整,主要是為了解決RDNA 2架構必須在核心數量翻番、頻率提升30%的情況下,不會受到頻寬不足的制約。

上一代的RDNA架構中,零級快取分佈在每個計算單元中,一級快取是每個著色器引擎獨享的,並單獨存取二級快取,4MB二級快取則負責在著色器引擎、指令處理器之間共用資料。

RDNA架構搭配的是256-bit GDDR6視訊記憶體,等效頻率14GHz,總頻寬為448GB/s,看起來不少,但核心規模急劇擴大後,就會成為瓶頸。

GPU發展的傳統思路中,提升視訊記憶體頻寬的核心途徑就是擴大位寬、提高頻率。RTX 3090就擁有384-bit 19.5GHz GDDR6X,頻寬高達936GB/s,AMD Fury、Vega系列顯示卡還用過以高頻寬著稱的HBM,Radeon VII就達到了驚人的1TB/s。

但是,擴大位寬會造成核心面積急劇擴大、功耗急劇增加,HBM視訊記憶體則是成本高昂,還要與GPU整合封裝。

Smart Access Memory(SAM)視訊記憶體智取技術就是AMD提出的更高效的高頻寬解決方案,而且充分依託了AMD的平臺化優勢。

NVIDIA雖然號稱也在研發類似的技術,但沒有自己的CPU處理器做輔助,就有點像無根之水了。

RDNA 2為此整合了128MB大容量的Infinity Cache快取記憶體,有點像銳龍/霄龍處理器中的三級快取,同時優化各級快取結構的體系,還將二級快取容量翻兩番達到16MB。

再結合AMD CPU/GPU通用的Infinity Fabric高速互連通道,支援16x64-bit通道,最高頻率1.94GHz,其頻寬是256-bit GDDR6視訊記憶體的幾乎4倍!

按照AMD的說法,Infinity Cache快取記憶體結合256-bit GDDR6視訊記憶體,頻寬可以達到384-bit GDDR6視訊記憶體的多達2.17倍,而且還能節省10%的功耗——512-bit GDDR6或者4096-bit HBM也能帶來類似或者更高的頻寬,但是功耗和成本完全不可同日而語了。

與此同時,平均視訊記憶體延遲也降低了足足34%。

再借助成熟的PCIe 4.0技術、自家平臺優勢,銳龍5000處理器、RX 6000顯示卡彼此搭配的時候,SAM技術可以將更多記憶體空間對映到本地儲存地址暫存器中,讓處理器存取顯示卡全部容量的視訊記憶體,不再有任何限制,也徹底消除了頻寬瓶頸。

SAM技術加持後,不但頻寬瓶頸完全不存在,還有額外加成,官方宣稱可給RX 6800 XT帶來平均6%的遊戲效能提升,最多超過10%。

在我們的實測中,RX 6800 XT開啟SAM,遊戲效能平均提升大約3%,《刺客信條:奧德賽》、《古墓麗影:暗影》、《戰地5》、《戰爭機器》都是比較明顯的,以前是《戰爭機器5》,1080p解析度下達到了驚人的12%。

回想之前RX 6000系列規格曝光的時候,看到只有256-bit位寬,再加上AMD保密措施做得好,頂級規格一直沒有透露,相信絕大多數人都認為AMD這次直接棄療了,不做高階,結果誰都沒想到來了一個這麼一個獨門大招。

當然,SAM技術需要特定的條件才能開啟,硬體上不但需要銳龍5000處理器、RX 6000顯示卡,還得搭配X570、B550主機板,並在BIOS中開啟相關選項。

AMD表示,目前沒有計劃將SAM技術應用於老平臺,所以400系列主機板使用者即便上了銳龍5000處理器,也會少一些“福利”。

再說說光追。RDNA 2的思路是在每一個計算單元內,加入一個專門的Ray Accelerator光追加速單元,這與在微軟Xbox Series X/S、索尼PS5上的設計如出一轍,跨平臺的遊戲優化自然是得心應手。

對比NVIDIA RT Core專用光追核心的做法,RDNA 2將光追加速器整合於計算單元,可以共用通常無法在光追中無法被完全利用到的硬體。

換言之,執行非光追負載時,AMD光追加速器的部分硬體仍然可以正常運作,NVIDIA RT核心就完全閒置了,前者自然有著更高的整體效率,不必為根本用不到的硬體付出成本和功耗。

關於光追遊戲支援,RDNA 2架構基於行業標準的微軟DXR API和即將推出的Vulkan光追API,所以任何基於這些標準API的光追遊戲,AMD都可以直接支援,首發超過十款,包括《塵埃5》、《眾神隕落》、《孤島驚魂6》、《銀河破裂者》、《魔獸世界:暗影國度》、《戰地5》、《使命召喚:現代戰爭》、《孤島危機重製》、《堡壘之夜》、《地鐵:離去》、《古墓麗影:暗影》、《看門狗:軍團》。

這是AMD放出的RNA 2光追渲染效果圖,注意第一張和傳統光柵化渲染的對比。

AMD聲稱,相比於軟體方案,RDNA 2架構的硬體加速光追效能,可以提升10倍之多,同時給出了部分遊戲的實際效能,2K解析度下《使命召喚:現代戰爭》可以跑出95FPS,《孤島危機重製版》可達90FPS,《戰地5》能有70FPS。

還有一點很多人可能沒注意到,光追不僅僅可以用於遊戲,在圖形渲染中同樣很關鍵,而且早就有應用了,只不過一直都是軟體方案,效率不是很高。

AMD ProRender渲染器外掛就一直支援光追,支援Blender、Houdini、Autodesk Maya等頂級渲染軟體,Blender Cycles也即將支援。

AMD聲稱,RX 6800 XT相比於此前的Radeon VII,利用硬體光追加速,在渲染方面可以帶來大約50-70%的效能飛躍。

另外,針對NVIDIA DLSS深度學習超取樣抗鋸齒技術,AMD也提出了超解析度(FidelityFX Super Resolution),簡稱FSR,不過還在開發之中,正與遊戲開發商聯合優化支援,更多細節會在後續放出。

總的來說,基於一系列全新設計和特性,RDNA 2架構在執行頻率、同頻效能、能效比等各個方面都取得了顯著的進步,綜合能效比在RDNA相對於GCN提升50%的基礎上,又提升了多達54%!

這其中,21%來自同頻效能增強,17%來自能耗優化,16%來自設計頻率提升。

最後是一組AMD官方給出的RX 6800、RX 6800 XT與競品效能對比,看看就好,實際效能對比還請移步本站的首發評測。


IT145.com E-mail:sddin#qq.com