首頁 > 軟體

超融合資料中心網路白皮書(2021)

2021-05-22 16:30:44

「來源: |架構師技術聯盟 ID:ICT_Architect」

本研究報告介紹了資料中心網路對於算力的意義,歸納出影響資料中心全以太化演進的因素,以及超融合資料中心網路架構的典型特徵與價值。

下載地址:超融合資料中心網路白皮書

結合業界在超融合資料中心網路技術中的實踐與探索,對超融合資料中心網路架構的未來發展進行了展望。資料中心內資料處理包括資料的儲存、計算和應用三個環節,分別對應三大資源區:

資料儲存區:儲存伺服器內建不同的儲存介質,如機械硬碟、快閃記憶體盤(SSD)、藍光等,對於資料進行儲存、讀寫與備份,儲存節點間通過儲存網路互聯。

高效能運算區:伺服器較少虛擬化,配置CPU、GPU 等計算單元進行高效能運算或 AI 訓練,伺服器節點間通過高效能運算網路互聯。

通用計算區:伺服器大量使用 VM或容器等虛擬化技術,通過通用計算網路(又稱為應用網路、業務網路、前端網路),與外部使用者終端對接提供服務。

在這個持續迴圈的過程中,網路就像聯接計算和儲存資源的中樞神經,貫穿資料處理的全生命週期。資料中心算力水平不僅取決於計算伺服器和儲存伺服器的效能,很大程度上也受到網路效能的影響。如果網路算力水平無法滿足要求,則會引發「木桶效應」拉低整個資料中心的實際算力水平。

資料中心算力是資料中心的伺服器通過對資料進行處理後實現結果輸出的一種能力。在伺服器主機板上,資料傳輸的順序依次為 CPU、記憶體、硬碟和網卡,若針對圖形則需要 GPU。所以,從廣義上講,資料中心算力是一個包含計算、儲存、傳輸(網路)等多個內涵的綜合概念,是衡量資料中心計算能力的一個綜合指標。

提升網路效能可顯著改進資料中心算力能效比

定 義 數 據 中 心 算 效(CE,Computational Efficiency)為資料中心算力與所有 IT 裝置功耗的比值,即「資料中心 IT 裝置每瓦功耗所產生的算力」(單位:FLOPS/W):

在伺服器規模不變的情況下,提升網路能力可顯著改善資料中心單位能耗下的算力水平。ODCC2019 年針對基於以太的網算一體交換機的測試資料表明,在 HPC場景同等伺服器規模下,相對於傳統 RoCE(基於融合以太的遠端記憶體直接訪問協議)網路,網算一體技術可大幅度降低HPC 的任務完成時間,平均降幅超過 20%。即:單位時間提供的算力提升 20%,同等算力下能耗成本降低 20%。

在儲存網路場景,採用基於 NVMeover Fabric 的無損乙太網絡,可實現同等伺服器規模 下, 存 儲 IOPS效能相對於傳統 FC網路最高可提升87%,這也將大幅減少業務端到端運行時長。由此可見,重構資料中心網路可以實現在單位ICT 能耗下對算力的極大提升,更好滿足綠色節能資料中心的建設要求。在大算力需求持續高漲的情況下,為企業帶來更加直接的價值。

儲存全快閃記憶體化驅動 RoCE 產業生態發展

相比 HDD,SSD 介質在短時間內將儲存效能提升了近 100 倍,實現了跨越式的發展,而 FC 網路技術無論是從頻寬或時延已成為儲存網路場景的系統瓶頸,儲存業務開始呼喚更快、更高質量的網路。為此,儲存與網路從架構和協議層進行了深度重構,NVMeoverFabric 應運而生。

在新一代儲存網路技術的選擇上,業界存在NVMeoverFC、NVMeoverRoCE等多條路徑。然而,FC 網路始終無法突破三大挑戰:

第一、FC 網路技術及互通性相對封閉,整體產業生態與連續性面臨著很大挑戰;

第二、由於產業規模受限,FC 技術的發展相對遲緩,目前最大頻寬只有 32G 且已長達 6 年沒有出現跨代式技術;

第三、同樣由於產業規模受限,FC 網路運維人員稀缺,能夠運維 FC 網路的技術人員不足乙太網絡維護人員的 1/10。這造成 FC網路運維成本居高不下,故障解決效率低下。

相比FC網路,NVMeoverRoCE 技術無論從產業規模、技術活躍度、架構擴展性、開放生態、和多年 SDN(Software-DefinedNetwork,軟體定義網路)管理運維能力積累上都具有明顯的優勢,已成為下一代儲存網路技術的最優選擇。

CPU/GPU 去PCIe化,直出以太以獲取極致效能

隨著人工智慧技術的快速發展,PCIe 匯流排瓶頸凸顯。PCIe 是英特爾在 2001 年提出的高速序列計算機擴展匯流排標準,介面速度決定了 CPU 間的通訊速度,而介面數量則決定了主機板的擴展性。

當前,佔據資料中心伺服器 CPU 市場絕對地位的 Intelx86 架構普遍使用 PCIe3.0,PCIe3.0 單通道僅支援 8GT/s 的傳輸速率,且通道擴展數量有限。在 AI 超算伺服器已經全面邁入 100GE 網卡的時代,PCIe3.0 架構速率成為大吞吐高效能運算場景下的效能瓶頸。

為此,業界開始探索計算單元去 PCIe 之路。2019 年,Habana 公司釋出了在 AI 晶片處理器片內整合 RoCE 以太埠的處理器 Gaudi,Gaudi 將10 個基於融合乙太網的 RoCE-RDMA100GE 埠整合到處理器晶片中,每個乙太網埠均支援 RoCE功能,從而讓 AI 系統通過標準乙太網,在速度和埠數方面獲得了幾乎無限的可擴展性,提供了過去的晶片無法實現的可擴展能力。同年,華為的達芬奇晶片昇騰 910 集成了 RoCE 介面,通過片內RoCE 實現節點間直接互聯,為構建橫向擴展(ScaleOut)和縱向擴展(ScaleUp)系統提供了靈活高效的方法。

IPv6 大規模部署,產業政策加速以太化程序

IPv6 即網際網路協議第6版,是網際網路工程任務組設計的用於替代 IPv4 的下一代 IP 協議。IPv6 不僅能解決網路地址資源數量的問題,而且還解決了多種接入裝置連入網際網路的障礙問題,具有更大的地址空間和更高的安全性。從人人互聯到萬物智聯,網路對 IP 地址的需求量指數級增加;資料中心作為智慧世界的算力中樞,IPv6 成為互聯的基礎訴求。

超融合資料中心網路架構與核心特徵

下一代超融合資料中心網路需具備如下特徵,實現三個層面的融合:

全無損乙太網絡,實現流量承載融合:通用計算、儲存、高效能運算網路統一承載在 0 丟包乙太網技術棧上,實現大規模組網協議統一,TCP、RoCE 資料混流運行,打破傳統分散架構限制;

全生命週期自動管理,實現管控析融合:基於統一網路數字孿生底座,加以大資料及 AI 手段,實現規劃、建設、維護、優化全生命週期自動化,代替人工處理大量重複性、複雜性的操作,並可基於海量資料提升網路預測和預防能力,打破多工具多平臺分散管理限制;

全場景服務化能力,實現全場景融合:抽象資料中心網路「物理網路服務」、「邏輯網路服務」、「應用服務」、「互聯服務」、「網路安全服務」、「分析服務」等核心服務能力,基於開放服務化架構實現多廠家、離線與線上資料的靈活接入。滿足多私有云、多公有云、混合雲、以及豐富行業場景下的網路統一編排需求,支援算力跨雲靈活智慧排程,打破區域與場景限制。

超融合資料中心網路技術最佳實踐

基於全無損以太的超融合資料中心網路技術正在迅猛發展,在儲存、高效能運算、通用計算等場景得到了較好地商業實踐。

在無損網路方向,標準乙太網絡雖然有 QoS 以及流量控制能力,但執行機制簡單粗暴,通常通過靜態水線控制。靜態水線無法適應千變萬化的儲存業務流量,設定過高可能引發丟包,設定過低則無法充分釋放儲存的 IOPS 效能。為了解決這個難題,業界將 AI 機制引入到交換機中,一方面交換機可毫秒級感知流量變化,另一方面基於海量儲存流量樣本持續訓練獲得的 AI 演算法可通過智慧動態調整佇列水線實現亞秒級流量精準控制,最大程度釋放儲存效能。

在可靠性方面,業界正在推動網路與儲存在故障場景下的聯動標準化方案。通過交換機毫秒級主動通告故障,並聯動儲存協同倒換,可支援亞秒級的網路故障倒換,真正實現網路單點故障儲存業務無感知。

在網路易用性與運維方面,業界釋出了乙太網絡環境下的儲存即插即用最佳實踐,相比傳統以太逐節點、逐 ZONE 手工配置方式,可以做到業務單點配置、全網同步,實現儲存裝置的即插即用。

由於傳統 FC 網路當前主流商用埠頻寬只有8G,最大埠頻寬只有 32G,同城 100G 儲存傳輸往往需要 4~10 條以上的鏈路。相比之下,乙太網絡 100G/400G 介面能力已經成熟商用,可以大幅減少同城鏈路資源。然而,在同城雙活及災備場景中,跨城傳輸時延增大,短距流控反壓機制存在嚴重的滯後性。以同城 70 公里傳輸場景為例,RTT(Round-TripTime)時延往往大於 1 毫秒,導致傳統流控機制徹底失效。網路時延由四部分組成:

動態時延:主要由排隊時延產生,受埠擁塞影響;

靜態時延:主要包括網路轉發(查表)時延和轉發介面時延,一般為固定值,當前以太交換靜態時延遠高於超算專網;

網路跳數:指訊息在網路中所經歷的裝置數;

入網次數:指訊息進入網路的次數。新一代無損乙太網絡在動態時延、靜態時延、網路跳數以及入網次數幾個方面均做出了系統性優化,大幅優化了網路效能,可滿足高效能運算場景的實際訴求。

傳統的以太交換機在轉發層面,因需要考慮相容性和眾多協議支援等問題,導致轉發流程複雜、轉發時延較大。與此同時,以太查表演算法複雜、查表時延大,導致整體轉發處理時延長。目前業界主流商用以太交換機的靜態轉發時延大約在 600ns-1us 左右。

高效能運算場景的流量關注靜態時延的同時需要支援超大規模組網。然而傳統的 CLOS 架構作為主流網路架構,主要關注通用性,犧牲了時延和價效比。業界針對該問題開展了多樣的架構研究和新拓撲的設計。

當前資料中心網路架構設計大多基於工程經驗,不同搭建方式之間難以選擇,缺乏理論指導和統一性設計語言。網路拓撲效能指標繁多,不同指標之間相互制約,指標失衡很難避免。

轉載申明:轉載本號文章請註明作者來源,本號釋出文章若存在版權等問題,請留言聯絡處理,謝謝。


IT145.com E-mail:sddin#qq.com