首頁 > 軟體

Arm全面計算戰略重磅升級!Armv9架構CPU一鍵三連

2021-05-26 19:02:47

雷鋒網訊息,今年三月,Arm推出了面向未來十年的新一代架構Armv9。今天,Arm釋出新一代CPU、GPU產品和互聯技術,Arm要用全新的全面計算產品組合,應對智慧手機、高效能PC、可穿戴等眾多應用的計算需求和設計挑戰。

全新的CPU核心包括高效能核心Cortex-X1的升級版Cortex-X2,Cortex-A78的繼任者Cortex-A710,時隔四年後升級Cortex-A55的全新小核心Cortex-A510。

三款全新的CPU核心都基於今年三月份推出的Armv9架構,可謂一鍵三連,因此在改進效能和效率的同時,也將擁有擴展的SVE(可伸縮向量擴展)、機密計算架構、記憶體標籤擴展特性。

Arm新一代Mali GPU產品包括高階系列Mali-G78的繼任者Mali-G710,中端系列Mail-G57的後繼產品Mali-G510,以及高能效產品Mali-G310。

全新的GPU系列依舊採用2019年釋出的Valhall架構,這一架構2019年被Mali-G77首次使用,去年釋出的Mali-G78進行了小幅升級,麒麟9000、Exynos 2100以及MediaTek天璣都使用了Mali-G78。

Arm高階副總裁兼終端裝置事業部總經理 Paul Williamson告訴雷鋒網(公眾號:雷鋒網),「之所以引入新的產品命名規則,主要是因為引入了Armv9架構,希望用新的命名錶示這個新架構將會給市場帶來的變化。」

除了全新CPU和GPU,Arm還發布了CoreLink CI-700 一致性互連技術和 CoreLink NI-700片上網路互連技術與Arm CPU、GPU和NPU IP搭配,可跨SoC解決方案增強系統性能。

Armv9架構三款全新CPU,效能平均提升超30%

2023年完成向64位應用程式過渡

雷鋒網此前文章指出,Armv9架構有三個系列,分別是針對通用計算的A系列,實時處理器的R系列,微控制器的M系列,預計未來兩代移動基礎設施CPU的效能提升將超過30%。首款基於Armv9架構CPU的移動處理器最快將在今年底問世,可能來自MediaTek。

全新Cortex核心首先需要關注的是相容性問題。自谷歌2019年宣佈Google Play商店要求開發者上傳64位應用程式之後,業界就開始向64位應用程式過渡,並且,谷歌表示將在今年夏天晚些時候停止64位裝置對32位應用程式的相容。

Arm則表示,為了支援生態系統對於效能的需求, 2023 年將僅提供 64 位的移動應用大核和小核。因為在Armv9架構的全新三款CPU中,Cortex-X2和Cortex-A510只支援AArch64微體系結構,它們不再能夠執行AArch32程式碼,而Cortex-A710仍將支援AArch32。

Arm解釋稱這主要是為了滿足中國市場需求,由於中國移動應用市場缺乏像Google Play商店的同類生態系統,中國的供應商以及應用程式需要更多時間過渡到64位應用程式。

這意味著,在採用Arm全新Cortex核心的SoC上如果要運行32位的應用程式,只能運行在Cortex-A710核心。

仍要看到的是,全新的Armv9架構的產品X2和A710總體保持著X1和A78的目標,X系列願意在合理的範圍內折衷功率,通過微體系結構提高效能。A710則更著重於PPA(效能、功耗、面積)的平衡,通過更智慧的設計提高效能和效率。小核A510是四年來的首次更新,是一種全新的小巧設計。

Cortex-X2效能優勢進一步擴大

Cortex-X2進一步擴大了與Cortex-A710的效能和功耗的差距,Arm稱X2除了可以用於智慧手機SoC,也可以用於大螢幕計算裝置和膝上型電腦等對效能要求更高的終端。基於Armv9架構,X2核心從前端分支預測改進、排程優化到後端的管道等都進行了諸多改進。

就單核效能而言,在SPECint2006測試中,在相同工藝製程和頻率下,X2相比X1的整合效能提升了16%,機器學習效能提升高達2倍。但由於Arm是將8MB L3快取設計與4MB L3設計進行比較,6%的效能提升到底是較大快取還是核心效能提升暫不清楚。

效能和功耗曲線來看,想要實現16%的效能提升需要付出更高的功耗,這將給三星和高通等手機SoC設計公司帶來更大挑戰。

Cortex-A710能效提升30%

由於同樣採用了最新的Armv9架構,因此Cortex-A710同樣從核心的前端到後端也進行了改進,不同的是A710還支援AArch32。

經過優化的結果是,Cortex-A710相比Cortex-A78實現了最多10%的效能提升和30%的能效提升。同樣,10%的效能提升也是在8MB L3快取設計與4MB L3快取設計的比較。由於Cortex-A710可用於中端或低端SoC,這就意味著會使用較小快取,10%的效能提升可能不容易實現。

相比效能提升,稍微降低頻率可以帶來很大的功耗降低。Arm稱,在效能相同的情況下,A710的功耗比Cortex-A78少30%。這將有利於適中頻率的Cortex-A710 「中間」核心實現持續的效能和電源效率。

總體看來,X2和A710的效能和功率指標都很適中,提升也是近幾年來最少的。Arm解釋稱,由於向Armv9的遷移而進行了較大的體系結構更改,因此對通常的效率和效能改進產生了影響。

X2和A710都是該奧斯汀微體系結構家族的第四代產品,因此我們正面臨著不斷減少的收益和成熟的設計壁壘。

四年來首次更新Cortex小核

小核心是時隔四年終於迎來更新,因為上一代小核心Cortex-A55早在2017年就釋出。全新的Cortex-A510來自Arm劍橋團隊,使用了很多已經在較大核中使用的技術。Arm稱Cortex-A510新核心與此前的旗艦核心Cortex-A73的單核效能和頻率非常相似,但功耗卻低很多。

據悉,Arm採用了一個被稱為「合併核心」的設計方法,這是一種非常複雜的方法,最多兩個核心對,它們共享L2快取系統以及它們之間的FP / NEON / SVE管道。

Arm指出,共享管道對硬體是完全透明的,並且還使用了細粒度的硬體排程。在同時使用兩個核心的實際多執行緒工作負載中,與為每個核心專用的管道相比,效能影響和不足僅佔百分之幾。

乍一看,Arm的做法與AMD十年前在其Bulldozer核心中對CMT(叢集多執行緒)所做的改進有一些非常相似,但是在某些重要方面卻有很大不同。

從效能指標看,將Cortex-A55與32KB L1、128KB L2和4MB L3與具有32KB L1、256KB L2和8MB L3的Cortex-A510比較。在核心頻率相同的情況下,SPECint2006效能提升35%,SPECfp2006效能提升50%,提升非常顯著,但從年均複合增長率的角度看,提升並不那麼令人印象深刻。

比較IOS功率和效能,Cortex-A510效能提升10%,功耗可以降低20%。

值得注意的是,A510與A55的曲線在較低工作點幾乎重疊。儘管A510總體上具有更好的效能,但這似乎主要是將效率曲線擴展到更高的功率水平的結果。實際上要在任何結構化的基準測試中重現這些更真實的工作負載是極其困難的。

需要注意,Armv9-A CPU群集(cluster)的支柱是新款的動態共享單元( DynamIQ Shared Unit)DSU-110,DSU-110 具備可擴展性、可支援最多八Cortex-X2 核心配置,同時確保效率表現。

Paul Williamson稱:「通過共享系統級快取最多可以降低15%的能耗。」

旗艦Mali-G710 GPU是關注重點,中低端GPU效能大躍升

新的GPU系列延續採用Valhall 架構,旗艦產品Mali-G710是Mali-G78的繼承者,目標是相對簡單的代際演進,這是Arm的架構師在Mali GPU中實現的最高效能。

Mali-G610對於Mali GPU的品牌有積極意義,G610繼承了 Mali-G710 的所有功能,微體系結構相同,但價格更低。G610配置低於7個核心,可以幫助合作伙伴更好地區分旗艦產品與「高階」產品。

AnandTech指出,新的G710微體系結構看起來非常有趣,尤其是要解決與Arm的Mali GPU的API開銷相關的一些弱點。如何發揮作用還有待觀察,但從效能和功耗的提升來看,這似乎是一個穩健的進步,即便這不足以改變移動市場的競爭格局。

總的來說,對於大部分消費者而言,此次Arm升級的三款GPU關注的重點仍然是旗艦GPU Mali-G710。作為Valhall GPU架構的延續,新款G710執行引擎的與上一代Mali-G77和Mali-G78大致相同。與前一代Mali-G78 GPU相比,Arm承諾的改進是效能提高約20%,功耗有望降低20%,機器學習效能提升35%。

Mali-G510和Mali-G310是在前代G57和G31產品的基礎上迭代升級。Mali-G510是Arm中端產品組合的重大升級,G510可從2核擴展到6核,可以在端智慧手機、旗艦智慧電視和機頂盒上實現 100%的效能提升以及22%的節能優化,延長了電池續航。

新的Mali-G310是基於Valhall的新低端產品,瞄準的是以低面積效率為重點的市場,包括數千億的低成本裝置和其他嵌入式市場,例如入門級智慧手機、AR 裝置和可穿戴裝置。G310一個關鍵的價值是代表了Mali GPU架構從Bifrost架構到新的Valhall設計的重大轉變。

這些新設計代表了微體系結構中新的重大突破,讓Arm的中端和低端產品實現了顯著的效能提升。G510相比G54效能提升了1倍,能效提升22%,機器學習效能提升了1倍。G310相比G31圖形變形效能提升4.5倍,Vulkan效能提升4.5倍,Android UI效能提升2倍。

有意思的是,Anandtech認為由於缺少更大的幅度變化或步進功能升級,Arm的高階GPU前景看起來並不十分理想,三星已經確認在下一代Exynos GPU中採用AMD RDNA GPU,海思麒麟SoC被按下了暫停鍵。聯發科成為最後一個會採用Mali高階GPU的公司,但他們至今還未推出真正的旗艦級SoC,所以有可能看不到高階Mali-G710產品。

Arm Mali GPU設計哲學一直是一把雙刃劍,特別是它們正試圖通過非常相似的微體系結構來滿足如此廣闊的市場。高階市場看起來有些暗淡,但中端和低端產品看起來非常有前途。

Arm表示,到2020年,他們已經出貨了超過10億個Mali GPU, DTV市場份額為80%,智慧手機市場份額超過50%。

全面計算時代系統性能更加重要

Arm在2019年首次提出全面計算戰略,隨著全新架構產品的釋出,Arm的全面計算戰略也進一步升級。Arm認為全面計算設計戰略的三大關鍵原則是——計算效能、開發者可及性和安全性。要同時滿足這三大關鍵原則,需要提供出色的效能、安全性、可擴展性和效率。

「我們正致力於將 Armv9 技術引入到各個領域,以系統級設計最大程度地提高效能。基於 Arm 架構的計算技術正在構建超越智慧手機市場以外的領導地位,藉助移動生態系統帶來的巨大規模優勢,在膝上型電腦、桌上型電腦、雲等應用領域打造領先的解決方案。這些靈活的解決方案將被應用於Arm 合作伙伴的各種應用中,開啟新一代沉浸式的互動體驗。」Paul Williamson表示。

全面計算對於移動裝置、有豐富功能的AI產品都非常重要。因此,既需要Arm的Cortex CPU和Mali GPU,還需要全新的互聯技術,這對於提高系統性能至關重要。

Arm今天推出的CoreLink CI-700 和 CoreLink NI-700 對新的 Armv9-A 功能提供硬體級支援,如記憶體標籤擴展(Memory Tagging Extension),並支援更高的安全性、改進的頻寬和延遲。

Paul Williamson指出,「以往算力用基準測試來衡量,但全面計算的時代PPA的重要性越來越低,交付更好的使用者體驗和更高的系統性能將變得更加重要。Arm 全新的全面計算解決方案採用系統範圍的整體優化方法,橫跨硬體 IP、物理 IP、軟體、工具和標準,滿足所有終端細分市場的應用場景和成本區間。」

對算力需求越來越高以及應用越來越豐富是可以看到的趨勢,在變化越來越快的5G、AI和數字化時代,晶片巨頭都已經轉向多晶片組合競爭的時代,更加靈活的產品組合能夠滿足不同應用的效能需求。當然,與之相對應的還有製程、異構整合、封裝等一系列的問題,需要整個產業鏈共同面對。

Arm的全面計算策略能獲得多大的成功?


IT145.com E-mail:sddin#qq.com