首頁 > 科技

DPU在資料中心「上位」

2021-06-18 18:26:08

AI、5G、雲端計算技術的發展已經開始改變世界,資料中心作為承載這些技術,支撐數字化轉型的重要載體,面臨著眾多挑戰。這其中,已有的通用CPU和GPU不能完全滿足快速變化的應用需求,效能更強大,更加專用,更加異構的晶片更能滿足資料中心需求。

晶片巨頭們都看到了這樣的需求和趨勢,通過收購或者自研擁有了更全面的晶片類型。雷鋒網此前介紹過,在資料中心佔有優勢的英偉達先是在去年十月釋出了首代DPU Blue Field-2。今年4月,英偉達執行長黃仁勳在GTC 21上又宣佈英偉達資料中心晶片戰略升級為GPU+CPU+DPU,三類晶片,逐年飛躍,自研Arm架構CPU Grace也同時亮相。

DPU(Data Processing Unit)作為一個不被大部分人所熟知的晶片類型,其價值是什麼?為什麼DPU能在資料中心「上位」?資料中心的未來為什麼是3U一體?

DPU的雙重價值

瞭解DPU的價值之前,先解釋為什麼需要DPU。黃仁勳此前釋出DPU時表示,當下的資料中心是由軟體定義的,這使得資料中心更加靈活的同時,也產生了巨大的負擔,資料中心基礎架構的運行能夠消耗20%-30%的CPU核,因此需要一種新的處理器,也就是DPU。

或者說,以CPU為中心的資料中心架構已經不能滿足需求,以資料為中心才能更好滿足市場和應用需求。英偉達網路事業部亞太區市場開發高階總監宋慶春在本週的一場溝通會中表示:「以前計算規模和資料量沒那麼大,馮諾依曼架構很好地解決了提高計算效能的問題,隨著資料量越來越大,以及AI技術的發展,傳統的計算模型會造成網路擁塞,繼續提升資料中心的效能面臨挑戰。」

以資料為中心的架構,意味著資料在哪計算就在哪。宋慶春指出,以資料為中心的新架構可以解決網路傳輸中的瓶頸問題或丟包問題,典型通訊延時可以從30-40微秒降低到3-4秒,有10倍的效能提升。

更具體地說,英偉達DPU屬於SoC,集三個關鍵要素於一身:

  • 行業標準的、最高效能及軟體可程式設計的多核CPU,通常基於廣泛的Arm架構,與其SoC元件密切配合;

  • 高效能網路介面,能以線速或網路中的可用速度解析、處理資料,並高效地將資料傳輸到GPU和CPU。

  • 各種靈活和可程式設計的加速引擎,可以解除安裝AI、機器學習、安全、電信和儲存等應用,並提升效能。

也就是說,DPU能針對安全、網路、儲存、AI、HPC等業務進行加速,這是DPU的第一層價值。而DPU的第二層價值在於為以資料為中心的計算架構提供了創新的思路,能夠實現以前難以或無法實現的功能。

以前的資料中心所有操作都由CPU完成,不僅需要很多CPU核心,效率也很低。如果將一些操作,比如OVS(Open vSwitch,是分散式虛擬多層交換機的開源實現)解除安裝到DPU上運行,不僅可以提升效率,減少CPU的利用率,還能實現業務的隔離。

宋慶春舉了兩個例子,在雲場景下,英偉達和VMWare共同開發了Monterey項目,VMWare把它在Hypervisor裡的一些功能解除安裝到DPU上,比如防火牆、儲存、管理等,這樣把業務和基礎設施操作完全隔離,實現了高安全性,也實現了裸金屬的業務效能。

「這是VMWare第一次把他的原始碼開放給合作伙伴,共同開發基於VMWare企業級的雲解決方案。」宋慶春強調。

另一個例子是英偉達與RedHat的合作。RedHat不管在資料中心運行容器還是虛擬化,即便使用所有的CPU核來運行虛擬化或容器,也沒有辦法達到100G線速。這時,採用DPU運行Hypervisor、OVS或容器操作,可以在不消耗任何CPU的情況下以實現100G甚至200G全線速,並將CPU資源全部提供給業務。

DPU能帶來多少提升?

「我們最開始選擇DPU,是因為遇到了傳統伺服器頻寬瓶頸,我們想解決網路效能瓶頸的問題,也想降低成本。」Ucloud技術專家馬彥青進表示,「雙方最開始都有相同的認知,那就是DPU可以實現硬體的解除安裝,軟體和硬體的結合會成為未來的趨勢。」

藉助DPU和與之匹配的軟體棧DOCA,Ucloud實現了一系列的資料中心效能提升。

馬彥青介紹,Ucloud原先的網路架構使用的是VPC閘道器,作為裸金屬伺服器之間的VPC之間劃分的方法,需要很多閘道器伺服器叢集來進行管理,叢集伺服器本身就帶來了成本挑戰(大概4-8臺伺服器是一個小叢集),當跨閘道器的時候會有頻寬瓶頸。有了DPU就可以將VPC管理整合到DPU內部,包括OVS包轉發以及GRE封裝都可以通過DPU硬體實現,大幅提高轉發效率。原來10G的網卡升級到25G後,效能也大大提升。

這樣的改進得到了客戶的認可。「有DPU的解決方案已經在一些大資料、金融、資料庫、容器雲等業務中使用,他們的反饋非常好。比如一家做大資料業務的公司,VPC叢集砍掉後,進行N對N資料計算,頻寬和效能都有提升,維護成本也降低了。還有一家金融客戶,採用原先的VPC架構,需要為他們部署四臺伺服器,這會造成資源浪費,有了DPU,幾張卡就可以替代四臺伺服器。」

資料中心的儲存也受益於DPU。過去,Ucloud使用本地盤來儲存,缺點是容易出現壞盤或者掉卡,維護非常麻煩,資料丟失想要恢復也非常困難。在新架構裡,Ucloud採用RSSD雲盤作為後端儲存機群,核心是基於DPU的NVMe SNAP功能,實現了計算和儲存的解耦。解耦的優勢包括使用者可以免裝機,實現分鐘級交付,運維也減少了機型,磁碟可以按需使用,能夠快速實現故障遷移,三副本也更加安全可靠。

DPU還讓資料中心的安全性有顯著提升。據介紹,過去資料中心經常使用CPU運行Hyperscan做深度包檢測的政策表示式匹配。「藉助Blue Field-2,我們測試相比軟體的Hyperscan有3.5倍的加速。」馬彥青同時介紹,「加解密方面,DPU卡也可以對SSL、TLS進行加解密。IPSec的演算法也可以實現硬體的解除安裝,把CPU的算力釋放出來。」

Ucloud的最終極的目標,是實現一張卡實現虛擬化和裸金屬架構的統一。他們還在基於InfiniBand網路的DPU,探索如何加速AI和高效能運算。

DPU在資料中心上位的關鍵

資料中心和雲服務提供商實現更多探索,發揮DPU價值的基礎是英偉達DPU硬體的持續提升,以及DOCA軟體棧的不斷完善。根據英偉達的路線圖,下一代DPU Blue Field-4預計在2023年釋出,將會是業界首個800G的DPU,也會整合GPU。

DOCA是專為DPU開發的軟體包,就像CUDA對英偉達GPU的價值。DOCA通過軟體定義,可以呼叫DPU裡的硬體引擎,實現安全、網路、儲存等效能的提升。

DOCA的軟體棧一層是Driver和Runtime,主要進行排程硬體加速引擎。一層是DOCA Library,主要是針對業務提供介面。還有DPU管理對接上層,比如做編排(Orchestration)和服務部署(Provisioning)的時候使用DPU管理進行呼叫。

目前,DOCA 1.0正式版已經發布。

「我認為,雲端計算市場是DPU很好的突破點,能夠解決合作伙伴遇到的瓶頸問題,讓他們能夠更加高效、安全、低時延的提供服務。」 宋慶春對雷鋒網表示,「雲原生超級計算機也應該會很快應用到DPU市場。因為隨著超級計算的發展、算力已經變成了服務,如何提供一種安全的算力服務,DPU在這裡面就會扮演非常的角色。最終,DPU也會在基礎設施、資料中心、通訊等領域成為一個核心部件。

當然,DPU的出現並非要替代CPU和GPU,而是更好地滿足資料中心市場的需求。「3U(CPU、GPU、DPU)一體的架構將會讓管理程式、排程程式都會變得非常容易。3U一體是要實現從邊緣到核心資料中心,統一架構、統一管理、統一排程。」

想要通過3U一體滿足資料中心等需求的不止英偉達,英特爾本週也釋出了與DPU定位類似的IPU(Infrastructure Processing Unit),趨勢已經非常明顯,最終會帶來哪些變革?

注:文中配圖來自英偉達、UCloud 雷鋒網


IT145.com E-mail:sddin#qq.com