首頁 > 科技

超算TOP500榜單公佈,英偉達AI優勢前所未有?

2021-06-29 20:15:31

本週,一年一度的高效能運算大會ISC如期而至,世界TOP 500超級計算機排名也隨之更新公佈,對比去年的榜單,今年TOP 10的榜單中,來自美國新能源部勞倫斯伯克利國家實驗室的Perlmutter系統新晉入圍。

在TOP500的榜單中,中國超級計算機的數量雖然下降至186臺,但對比位居第二的美國的123臺,依然遙遙領先。

一個值得注意的事實是,此次榜單中有342套系統採用了英偉達技術提供加速,對比去年的333套提升2%,榜單上使用InfiniBand的系統數量也比去年增加了20%。另外,名單上更新的兩個新系統「超級雲」,能夠同時滿足AI、高效能運算(HPC)和雲端需求。

這意味著,高效能運算正在同AI加速融合,而在這一融合趨勢下,英偉達在超算領域的優勢前所未有。

不止是TOP10中的8臺,新晉系統也選英偉達

雷鋒網此前在《全球TOP10超級計算機8臺都選英偉達的三大原因》一文中分析過,由於高速資料互連技術的普及,以及英偉達GPU系統能夠提高將超算的能效提升2.8倍,全球TOP10超級計算機中的8臺都採用了英偉達GPU或InfiniBand網路技術。

在最新公佈的榜單中,不少新晉系統也都選擇英偉達提供支援,其中包括雲端的兩個新系統。

Microsoft Azure是其中之一,在TOP 500榜單上連續佔據第26位到第29位,利用叢集將公有云服務提升到新的水平。作為新興的共享超級計算機,地球上的任何使用者都可以按需使用。

在Azure系統的背後,有8個NVIDIA A100 Tensor Core GPU為其各個虛擬例項提供動力支援,每個晶片都有自己的HDR 200G InfiniBand 通訊介面,可以與Azure雲中的數千個GPU建立高速連線。

劍橋大學的新系統Wilkes-3是另一個超級雲系統,也是世界上第一臺雲原生超級計算機。該系統使用了320個連線在HDR 200G Infiniband 網路上的 A100 GPU,且有經過優化的NVIDIA BlueField DPU提供安全、虛擬化的資料處理,保證虛擬資源的隱私性和安全性。

此外,本次進入TOP10的新系統Perlmutter,以 64.59 Linpack petaflops 在 TOP500 中排名第 5,也是由來自英偉達6144個A100GPU提供動力支援。

國家能源研究科學計算中心 (NERSC) 資料和分析服務組代理負責人 Wahid Bhimji 表示:「AI是美國能源部的一個增長領域,其可行性已被驗證,正計劃投入生產。」

英偉達更新超算平臺,加入三項關鍵技術

為了持續滿足高效能運算對AI的需求,英偉達也在本次ISC大會上釋出全新的HGX A100系統,且已經在英國愛丁堡大學託管的DiRAC超級計算機中落地。

英偉達HGX A100加入了三項關鍵技術:NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand 網路和 NVIDIA Magnum IO GPUDirect Storage 軟體。

其中,A100 80GB PCle GPU採用NVIDIA Ampere架構,與A100 40GB相比其記憶體頻寬帶到2TB/S,提升25% 。更高的記憶體容量和記憶體頻寬,能夠將更多的資料和更大的神經網路儲存在記憶體中,從而最大限度地減少節點通訊和能耗,研究人員也能獲得更高的吞吐率和更快的結果。

在網路方面,英偉達併購Mellanox後,釋放 InfiniBand高效網路潛能。InfiniBand 作為全球唯一具有完全負載轉移功能的網路內計算互連繫統,英偉達為此配備了NVIDIA Quantum-2固定配置交換機和模組化交換機。

NVIDIA Quantum-2 模組化交換機最高可提供 2048 個 NDR 400Gb/s InfiniBand 埠(或 4096個 NDR200 埠)的可擴展埠配置,雙向總吞吐量達到每秒 1.64 PB,是上一代 HDR InfiniBand 模組化交換機系列的5倍。

NVIDIA Quantum-2 交換機具有向前和向後相容的特性,可以輕鬆遷移和擴展現有的系統和軟體。

在軟體方面,Magnum IO GPUDirect Storage軟體提供了GPU記憶體和儲存之間的直接記憶體訪問,能夠實現複雜工作負載處理效能。英偉達稱,應用程式通過直接路徑從低 I/O 延遲中受益並能夠使用網路介面卡的全部頻寬,同時減少 CPU 的利用負載並管理資料消耗增加所產生的影響。

目前,英偉達最新HGX高效能運算平臺已落地英國愛丁堡大學,為其託管的新型DiRAC超級計算機Tursa提供動力支援。

愛丁堡大學的 Peter Boyle 教授對HGX所提供的支援表示肯定:「Tursa 旨在應對獨特的研究挑戰,為科學建模和模擬解鎖新的可能性。NVIDIA 加速計算平臺提供超大規模服務,通過精確平衡網路頻寬和FLOPS 來以實現這項研究所需的出色效能,進而助力新發現。」

幾十年前,學術研究中心嘗試模擬原理的相互作用,吸引了航空航天、醫療健康等多個行業的注意,但其所需要的巨量計算阻礙了發展研究,直到加速計算和深度學習的出現,才使得高效能運算落地得以推進。

「得益於各種進步,我們正處於高新能計算革命的開端。」黃仁勳如此評價當下高效能運算的發展。

雷鋒網雷鋒網


IT145.com E-mail:sddin#qq.com