首頁 > 硬體

5種工藝、1000+億電晶體!Intel Xe HPC頂級計算卡秀肌肉

2021-08-20 21:00:14

我們知道,Intel Xe GPU架構分為四個層級,或者說四種微架構,其中以上是的Xe LP低功耗版僅供核顯、入門獨顯,即將到來的Xe HPG高效能圖形版面向中高階遊戲顯示卡,Xe HP高效能版適合加速計算、AI、ML等但所知最少,Xe HPC高效能運算版則是最頂級的存在,主攻大型資料中心、超算。

Xe HPG微架構的Alchmest(DG2)之前已經聊過了,這裡來看看Xe HPC和首款產品Ponte Vecchio,競爭對手是NVIDIA A系列、AMD Instinct系列。

當然,它們距離普通人非常非常遙遠,但卻是技術實力的最高體現。

Xe HPC架構的基礎也是Xe核心(Xe Core),但因為面向的是計算而非圖形,內部結構有所不同,包括8個512-bit向量引擎、8個4096-bit矩陣引擎,數量對比Xe HPG都減半,但位寬分別翻了一倍、兩倍,算力更凶猛。

向量引擎每時鐘週期可執行256個FP32、256個FP64、512個FP16等資料操作,矩陣引擎則每時鐘週期支援2048個FP32、4096個FP64、4096個BF16、8192個INT8。

與向量引擎、矩陣引擎搭檔的,是一個更寬的寬載入/儲存單元,每個時鐘週期取回512位元組資料。

每個Xe核心整合512KB一級資料快取,這是目前業內最大的,而且可以通過軟體設定作為暫存區使用,又稱共用內部視訊記憶體。

Xe核心的上一層級叫做“切片”(Slice),不同於Xe HPG上的渲染器切片(Slice),畢竟一個是做計算,一個是做圖形渲染。

Xe HPC每個切片整合多達16個Xe核心,四倍於Xe HPG渲染切片的規模,同時還有8MB一級快取、16個光追單元、一個硬體上下文(Hardware Context)單元,其中光追支援光線遍歷、邊界框相交、三角形相交,提供固定函數計算。

硬體上下文單元大家可能比較陌生,它能讓GPU同時執行多個應用,而無需昂貴的基於軟體的文字切換。

切片的上一級則是“堆疊”(Stack),至此才算一個完整的GPU。

一個堆疊包含4個切片,因此總計64個Xe核心、64個光追單元、4個硬體上下文。

同時,堆疊內還有大規模二級快取、4個HBM2e記憶體控制器、1個媒體引擎、8個Xe鏈路,以及拷貝引擎、PCle控制器。 

Xe HPC架構是可以輕鬆擴充套件的,支援多堆疊設計,屬於業內首創,依靠的是EMIB封裝和堆疊間互連通道,可保持堆疊之間的記憶體一致性。

比如這是雙堆疊,整體規模直接翻番,它就是後邊要說的首款Ponte Vecchio,但看架構圖,似乎不支援四堆疊。

不同的Xe HPC GPU之間通過Xe鏈路互連,支援最多8顆並行,算力直接暴力乘以8。

Ponte Vecchio作為基於Xe HPC架構的首款產品,一切的一切都是全新的,包括驗證方法、軟體、可靠性方法、訊號完整性機制、互連、供電、封裝、I/O架構、記憶體架構、IP架構、SoC架構。

Ponte Vecchio是個龐然大物,整合電晶體數量突破1000億個,使用5種不同的製造工藝,在內部封裝了多達47個不同的單元(Tile),包括計算單元、Rambo快取單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元、EMIB單元,等等。

如此複雜的晶片設計,面臨的挑戰自然是空前的,首席架構師Masooma Bhaiwala直言這是她30年來設計的最複雜的晶片,堪稱制造奇蹟。

其中,Foveros 3D封裝是一個關鍵,最終的資料傳輸速度不得不提高到最初規劃的1.5倍,以便以把Foveros連線數量降至最低,但依然比之前任何設計都高了兩個數量級。

開發團隊還必須在設計初期就鎖定Foveros在所有單元上的位置,這意味著必須一開始就搞定整個平面圖佈局,中途也不允許有明顯變更。

晶片設計和驗證也是全新流程,為此開發了大量新的工具、方法、指令碼,並獨立安排4個主要單元,開發各自的偵錯軟體包,分而治之,加速開發,最終在SoC整體封裝完成幾天內就成功啟動,執行了Hello World。

再來看幾個關鍵的部分,計算單元採用臺積電N5 5nm工藝,每個整合8個Xe核心、4MB一級快取,Foveros封裝凸點間距36微米。

基礎單元是一個聯結器,所有複雜的I/O和高頻寬元件都在這裡匯聚,包括PCIe 5.0匯流排、HBM2e記憶體、MDFI鏈路、EMIB橋接,幾乎是在挑戰物理極限。

它採用Intel 7工藝、Foveros封裝,面積達640平方毫米,整合了多達144MB二級快取。

Xe鏈路單元是臺積電N7 7nm工藝製造,負責不同GPU之間的連線,是面向HPC、AI的縱向擴充套件的關鍵,每個單元有8條,實現了最高90G Serdes,可以滿足“極光”(Aurora)這樣百億億次級級超級計算機的需求。

Ponte Vecchio目前處於A0版本階段(一般到A1就投入量產),成功執行了數百個工作負載,實測FP32吞吐效能超過45TFlops,Memory Fabric快取頻寬超過5TB/s,互連頻寬超過2TB/s。

Ponte Vecchio將有多種產品形態,最基本的單晶片做成OAM模組,整合到一個載體基板上,AMD Instinct也有這種。

四芯並聯組成一個子系統,再搭配雙路的下一代Sapphire Rapids至強處理器,就是一個超算節點,將用於“極光”超算。


IT145.com E-mail:sddin#qq.com