本週四,MLCommons釋出了最新MLPerf Inference v1.0基準測試(Benchmark)結果,英偉達GPU一如既往地表現不俗,但值得英偉達注意的是,其超大規模資料中心的競爭對手,Graphcore公司專為
2021-07-01 03:23:12
本週四,MLCommons釋出了最新MLPerf Inference v1.0基準測試(Benchmark)結果,英偉達GPU一如既往地表現不俗,但值得英偉達注意的是,其超大規模資料中心的競爭對手,Graphcore公司專為機器智慧設計的 IPU也參加了此次基準測試。
MLPerf基準測試釋出至今已有三年之久,此前英偉達、谷歌、阿里巴巴等大公司一直通過MLPerf跑分成績強調其產品實力,能夠挑戰英偉達GPU的IPU為何今年才加入MLPerf基準測試?首次參加MLPerf測試的IPU,究竟表現如何?
首次提交兩個模型,價效比收益勝過英偉達
在今年提交的MLPerf訓練1.0版本任務中,Graphcore提交了兩個模型:計算機視覺模型ResNet-50和自然語言處理模型BERT。
Graphcore高階副總裁兼中國區總經理盧濤稱,之所以提交這兩個模型,是因為這兩個模型在相應領域裡頗具代表意義且被廣泛使用。
「許多骨幹網路還是基於ResNet,BERT雖然有很多變種版本。但標準的BERT就還是大家比較認可的Benchmaek基準。」
基於IPU-M2000,Graphcore用了兩種配置的硬體進行基準測試,由4個1U IPU-M2000和1個雙路伺服器組成的IPU-POD16,可以提供4 PeteFLOPS的AI算力,由16個IPU-M2000和4臺雙路伺服器組成的IPU-POD64 ,可提供16 PeteFLOPS的AI算力。
測試結果顯示,在BERT模型訓練中,IPU-POD16在開放分區(Open Division)的訓練時間在半小時以內,約為27分鐘,封閉分區(Closed Division)的訓練時間為34分鐘。兩個分區的區別在於,在封閉分區中,需要完全按照規定的網路架構優化方式和硬體配置完成提交,而在開放分區擁有更多的自主靈活性。
同樣的模型訓練在IPU-POD64上,訓練時間縮短3.5倍,且在開放分區的訓練時間10分鐘以內,這意味著相關科研工作者在模型訓練過程中能夠更快地得到研究結果。
在ResNet-50模型訓練中,IPU-POD16的封閉分區訓練時間為37分鐘,IPU-POD64能在這一基礎上能將時間縮短3倍。
一直以來將英偉達視為競爭對手的Graphcore這次也同英偉達基於DXG A100 640G提交的訓練結果進行比較。基於DGX A100,其ResNet-50的MLPerf訓練時間28分鐘,BERT的MLPerf訓練時間為21分鐘,均高於IPU-POD16。
不過IPU訓練時間更久並不意味著其AI能力就落後於GPU。
盧濤表示,一方面,ResNet、BERT等應用都是在過往基於GPU架構選擇出來並深度優化的應用,對IPU可能並不是很友好,另一方面,對於終端使用者非常關注「每花費一美金所能獲得的訓練收益」,如果將訓練收益和目錄折算成價效比,RedNet訓練任務下,IPU-POD16相對DGX A100 640G版本的價效比收益有1.6倍,BERT訓練任務下,IPU-POD16相對DGX A100 640G版本的價效比收益有1.3倍。
也就是說,如果單純從價效比收益來看,IPU可能是更好的選擇。
參加MLPerf基準測試,源於Graphcore 資源更加充足
事實上,Graphcore IPU與英偉達GPU跑分對比並不是第一次,不過當時並未選擇在業內認可度和接受度更高的MLPerf。
去年8月,Graphcore通過參加谷歌釋出的EfficicentNet模型、ResearchNEt模型以及NLP模型等基準測試且與英偉達A100 GPU對比。測試資料表明,多維度比較後,IPU的推理效能與訓練效能均優於GPU。
為何當時未提交MLPerf的結果?「因為當時資源有限,更多地聚焦在對SDK的打磨、優化、功能開發,和頭部客戶及合作伙伴聯合探索應用場景落地。」盧濤如此回答。
盧濤解釋到,參加MLPerf Benchmark需要較大的投入,Graphcore十幾個團隊成員分別間接或直接參加了這一項目,且至少耗費半年以上的時間。「今天Graphcore整體軟硬體,尤其是軟體和生態,更加成熟完善,公司整體實力和之前相比更加雄厚。在幾個因素疊加的影響下,我們參加了MLPerf訓練1.0的Benchmark,後續也有持續投入的計劃。」
選擇在資源充足後參加MLPerf基準測試,同時也表明Graphcore對這一基準測試的認可。
「AI晶片產業的整體出發點是DSA(Domain Specific Architecture),與不論是在整體架構上還是計算機體系結構上相對比較類似的CPU相比,各個AI處理器的架構之間會有較大的差異。對於終端使用者來說,就很難體現所選擇的架構對於業務受益產生的影響。」
「我並不能說MLPerf代表了整個AI產業所有的任務,但是它代表了今天工業界比較主流部署的應用場景。我認為MLPerf是有一定指導意義的。」盧濤說道。
雖然基於GPU架構選擇出來的應用模型對IPU而言並不友好,但Graphcore認為,需要積极參與產業標準的探討,逐漸成為產業中有力的聲音,才能影響產業標準的走向。
「之後我們會積极參與MLPerf的提交,提供一些不同的任務,讓MLPerf的工作負載更具代表性。」盧濤說道。
文中圖片源自Graphcore
雷鋒網雷鋒網雷鋒網
相關文章
本週四,MLCommons釋出了最新MLPerf Inference v1.0基準測試(Benchmark)結果,英偉達GPU一如既往地表現不俗,但值得英偉達注意的是,其超大規模資料中心的競爭對手,Graphcore公司專為
2021-07-01 03:23:12
隔壁王嬸的閨女今年考得不錯,要去南方上學了。今天她閨女拽住我,問:「叔叔,我上大學了,不知道挑什麼手機?你給個建議唄。」聽到這裡,我喜上眉梢,這不正好是我的拿手好戲嘛。於是,我便
2021-07-01 03:07:21
作者 | 駱俊武 責編 | 歐陽姝黎整個系列側重於思考力的訓練,不僅僅是講清楚 What,而是更關注 Why 和 How,以幫助大家構建出牢固的知識體系。這是技術系列《吃透 MQ》的開
2021-07-01 03:07:11
6月28日中國郵政宣佈提速,瞬間成為網際網路的熱點,快遞行業的唯一「國家隊」成員,它努力提高自己的服務質量無疑是讓業界矚目的,據悉它將在1000多個城市間提高配送速度,實現主要
2021-07-01 03:06:53
我做自媒體是高中時候的事情,那年的念高三,當時在一些眾測平臺中,申請體驗到了韶音的耳機。如果我沒記錯,那是我第一次體驗骨傳導耳機,當時還覺得蠻稀奇的,一個耳機會在耳朵裡邊迴
2021-07-01 03:06:39
#realme真我GT#realme GT大師版圖片與參數曝光,將搭載 1億畫素相機先前網路上傳出realme將推出一款「realme GT大師版」的訊息,當時除了這款手機可能依舊由知名日本工業設計師
2021-07-01 03:06:30