首頁 > 硬體

AMD CDNA計算卡架構揭祕:從零起步、三殺NVIDIA

2020-11-18 04:00:27

昨日晚間,AMD正式釋出了新一代Instinct MI100計算卡,首次採用針對HPC高效能運算、AI人工智慧全新設計的CDNA架構,和遊戲向的RDNA架構截然不同。

Instinct MI100計算卡採用臺積電7nm工藝製造,整合120個計算單元、7680個流處理器,核心頻率最高1502MHz,並專門加入了Matrix Core(矩陣核心),用於加速HPC、AI運算。

它整合封裝了32GB HBM2視訊記憶體,位寬4096-bit,頻率1.2GHz,頻寬1228.8GB/s,支援ECC。

該卡支援PCIe 4.0 x16,具備三條Infinity Fabric互連匯流排,峰值頻寬92GB/s,整卡熱設計功耗300W,雙8針輔助供電。

這塊卡的特殊之處還在於頂部設定了橋接金手指,通過橋接器可以將四塊卡繫結在一起,而搭配雙路的AMD霄龍處理器,可以實現八卡並行。

類似之前的計算卡,甚至是R9 Fury X、Vega 64/56這樣的遊戲卡,Instinct MI110也是將GPU晶片、HBM晶片整合封裝在了一起,不過如今的HBM2單顆容量已達8GB。

對比CDNA(上)、RDNA(下)架構圖,可以發現二者整體框架有些相似之處,但各種單元模組和佈局已經截然不同。

Infinity Fabric互連匯流排、視訊記憶體控制器、PCIe 4.0控制器、多媒體引擎、著色器引擎、ACE非同步計算引擎等等都還在(當然也不完全一樣了),而和圖形渲染輸出相關的都沒了,比如圖形指令處理器、幾何處理器、光柵器、顯示引擎、原語單元等等,同時增加了XGMI連線控制器用於多卡互連,一二級快取也完全不同。

作為AMD GPU的最基本模組,計算單元(CU)也完全不同了,現在叫做增強型計算單元(XCU),組成模組包括排程器、分支與資訊單元、12.8KB ECC標量單元、512KB ECC標量暫存器、向量暫存器、向量ALU操作單元、矩陣資料操作單元、四個向量/矩陣SIMD單元、64KB ECC本地資料共用單元、載入/儲存單元、16KB ECC一級快取等等。

顯然,這一些都是為計算服務的,而用於圖形的著色器、紋理相關單元自然都不見了,即便有些單元名字一樣,規格和作用也不同了。

計算效能方面,FMA64/FP64雙精度為11.5TFlops(每秒1.15億億次),FMA32/FP32單精度為23.1TFlops(每秒2.31億億次),FP32 Matrix單精度矩陣計算為46.1TFlops(每秒4.61億億次),FP16 Matrix半精度矩陣計算為184.6TFlops(每秒18.46億億次),Bfloat16浮點為92.3TFlops(每秒9.23億億次)。

這樣的一塊卡,已經相當於20年前的世界頂級超級計算機,而體積、功耗都不可同日而語。

對比NVIDIA安培架構的最新計算卡A100,AMD也給出了一些對比資料,FP32單精度效能領先18.5%,FP64雙精度效能領先18.6%,AI與機器學習效能更是領先兩倍多,而且功耗低了足足100W。

而對比上代產品MI50,新卡的FP64雙精度、FP32單精度效能均提升74%,FP32矩陣效能提升接近2.5倍,AI負載效能更是幾乎7倍的飛躍。

當然,除了紙面計算效能優秀,軟體開發也必須跟上,尤其是這種計算性的產品。NVIDIA在這方面要強得多,生態更加穩固和豐富,AMD ROCm平臺正在奮起直追中。

 


IT145.com E-mail:sddin#qq.com