首頁 > 硬體

NVIDIA兩款全新GPU首秀:重新整理AI推理紀錄、效能314倍於CPU

2021-04-23 22:02:50

時隔半年,MLPerf組織釋出最新的MLPerf Inference v1.0結果,V1.0引入了新的功率測量技術、工具和度量標準,以補充效能基準,新指標更容易比較系統的能耗,效能和功耗。

V1.0版本的基準測試內容雲端推理依舊包括推薦系統、自然語言處理、語音識別和醫療影像等一系列工作負載,邊緣AI推理測試則不包括推薦系統。


MLPerf Inference v1.0

所有主要的OEM都提交了MLPerf測試結果,其中,在AI領域佔有優勢地位的NVIDIA此次是唯一一家提交了從資料中心到邊緣所有MLPerf基準測試類別資料的公司,並且憑藉A100 GPU重新整理了紀錄。

不僅如此,超過一半提交成績的系統都採用了NVIDIA的AI平臺。

不過,初創公司提交其AI晶片推理效能Benchmark的依舊很少。

AI推理最高效能半年提升45%

雷鋒網在MLPerf Inference v0.7結果釋出的時候已經介紹過,NVIDIA去年5月釋出的安培架構A100 Tensor Core GPU在雲端推理的基準測試效能是最先進英特爾CPU的237倍。

經過半年的優化,NVIDIA又將推薦系統模型DLRM、語音識別模型RNN-T和醫療影像3D U-Net模型的效能進一步提升,提升幅度達最高達45%,與CPU的效能差距也提升至314倍。

從架構的角度看,GPU架構用於推理優勢並不明顯,但NVIDIA依舊憑藉其架構設計配合軟體優化重新整理了MLPerf AI雲端和邊緣推理的Benchmark紀錄。

MLPerf的Benchmark證明了A100 GPU效能,但其不菲的售價也是許多公司難以承受的。

今天,更具價效比的NVIDIAA30(功耗165W)和A10(功耗150W) GPU也在MLPerf Inference v1.0中首秀。

A30 GPU強於計算,支援廣泛的AI推理和主流企業級計算工作負載,如推薦系統、對話式AI和計算機視覺。

A10 GPU更側重影象效能,可加速深度學習推理、互動式渲染、計算機輔助設計和雲遊戲為混合型AI和圖形工作負載提供支援。可以應用於AI推理和訓練的A30和A10 GPU今年夏天開始會應用於各類伺服器中。

A100雲端AI推理效能比CPU高314倍

A100經過半年的優化,與CPU的效能差距從v0.7時最多237倍的差距增加到了最高314倍。

具體來看,在資料中心推理的Benchmark中,在離線(Offline)測試,A100比最新發布的A10有1-3倍的效能提升,在伺服器(Server)測試中,A100的效能最高是A10的近5倍,在兩種模式下,A30的效能都比A10高。

值得注意的是,英特爾本月初最新發布的第三代至強可延伸CPU Ice Lake的推理效能相比上一代Cooper Lake在離線測試的ResNet-50和SSD-Large模型下有顯著提升,但相比A100 GPU體現出17-314倍的效能差距。

高通AI 100的雲端AI推理在MLPerf Inference v1.0測試下表現不錯,其提交的離線和伺服器測試下的ResNet-50和SSD-Large模型成績顯示,高通AI 100的推理效能均比NVIDIA新推出的A10 GPU高,其它模型的成績高通並未提交。

從每瓦效能來看,高通A100在提交成績的ResNet-50和SSD-Large模型中比A100更高,但效能比A100低。

賽靈思的VCK5000 FPGA在影象分類ResNet-50的測試中表現不錯。

Jetson系列是唯一提交所有邊緣推理測試成績的晶片

A系列GPU在雲端AI推理的效能優勢可以延續至邊緣端。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream,A100 PCIe、A30、A10在Single-Stream的所有模型下都有顯著的效能優勢,高通A100在ResNet-50模型下也優勢明顯,不過高通也僅提交了這一模型的成績。

這些產品用於邊緣AI推理有些大材小用,NVIDIA的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場景,根據提交的資料,Centaur公司在ResNet-50模型中優勢明顯,SSD-Small模型下的效能與Jetson Xavier NX效能相當。

邊緣AI推理的Multi-Stream Benchmark,只有NVIDIA提交了成績,A100 PCIe版本的效能最高是Jetson AGX Xavier和Xavier NX的60倍。

在NVIDIA此次提交的結果中,多項是基於Triton推理伺服器,其支援所有主要框架的模型,可在GPU及CPU上執行,還針對批次處理、實時和串流傳輸等不同的查詢型別進行了優化,可簡化在應用中部署AI的複雜性。

雷鋒網(公眾號:雷鋒網)瞭解到,在設定相當的情況下,採用Triton的提交結果所達到的效能接近於最佳化GPU能夠達到效能的95%,和最佳化CPU99%的效能。

另外,NVIDIA還使用Ampere架構的多範例GPU效能,在單一GPU上使用7個MIG範例,同時執行所有7項MLPerf離線測試,實現了與單一MIG範例獨立執行幾乎完全相同的效能。

小結

MLPerf Benchmark結果的持續更新,可以為在IT基礎設施投資的企業提供一些有價值的參考,也能推動AI的應用和普及。

在這個過程中,軟體對於AI效能的提升非常重要,同樣是A100 GPU,通過有針對性的優化,半年實現了45%的效能提升。

同時也不難發現,NVIDIA正在通過持續的軟硬體優化,以及更豐富的產品組合,保持其在AI領域的領導力,在AI領域想要超越NVIDIA似乎正在變得越來越難。


IT145.com E-mail:sddin#qq.com