GPU延遲對比：AMD RDNA2完勝NVIDIA安培

2021-04-19 22:00:32

CPU快取與記憶體延遲測試，相信大家都有所耳聞，但是GPU同樣的測試卻幾乎沒人做過。

Chips And Cheese就做了一次特別的測試，對比考察了AMD、NVIDIA GPU架構的快取、視訊記憶體遲問題。

首先是AMD RDNA2、NVIDIA Ampere兩家最新架構的比拼，代表是RX 6900 XT、RTX 3090，前者在幾乎所有階段都完勝。

RNDA2架構創新性地加入了Infinity Cache無限快取，提升頻寬的同時，延遲也可圈可點，二級快取命中率上只增加了大約20ns的延遲，明顯低於Ampere。

更驚人的是，RDNA2視訊記憶體延遲和Ampere幾乎一模一樣，但是別忘了，Ampere只有兩個層級的快取，RDNA2卻有四個。

Ampere的快取架構更加傳統，SM陣列私有一級快取到二級快取要增加超過100ns的延遲，RDNA2從零級快取到二級快取則只增加了約66ns。看起來，GA102核心面積過大，也直接增加了延遲。

這正好可以解釋AMD RDNA2架構在低解析度下效能、能效更優秀，因為二級快取、三級快取延遲很低，更適合執行較小的負載。Ampere則相反，高負載下優勢明顯，比如說4K解析度。

說完了GPU之間的對比，那麼GPU、CPU放在一起怎麼樣呢？這裡以RX 6900 XT、Intel四代酷睿i7-4770為例來看看。

CPU的快取自然不是一個級別的，所以這裡Y軸用了線性資料，可以看到全程大大低於RDNA2，搭配DDR3-1600 CL9記憶體延遲只有63ns，RX 6900 XT、GDDR6的組合則有226ns，另外末級快取平均延遲分別是53.42ns、123.2ns。

再看看前幾代的NVIDIA GPU，包括Maxwell架構的GTX 980 Ti、Pascal架構的GTX 1080、Turing架構的RTX 2060 Mobile。

Maxwell、Pascal其實差不多，前者整體略高一些，可能是受制於晶片面積較大、核心頻率較低。

Turing則已經有了Ampere的樣子，一級快取延遲低得多，二級差不多，奇怪的是視訊記憶體延遲在32MB之後偏高，原因未知。

AMD考察了TeraScale架構的HD 5850/6950、GCN架構的HD 7970，再加上RX 6900 XT，很明顯在逐代降低，而且是各級快取都在同時進步。