首頁 > 科技

清華軟體定義晶片團隊提出DIMM間廣播技術,國際頂會ISCA2021收錄

2021-06-18 18:25:55

允中 發自 凹非寺

量子位 編輯 | 公眾號 QbitAI

2021年6月14日~6月17日,第48屆國際計算機體系結構大會(ISCA)通過線上模式順利召開。清華大學魏少軍劉雷波教授團隊作了題為「ABC-DIMM: Alleviating the Bottleneck of Communication in DIMM-based Near Memory Processing with Inter-DIMM Broadcast」的學術報告。

該報告針對DIMM(雙列直插式儲存模組)近存計算架構的通訊瓶頸問題,提出了基於DIMM間廣播技術的通訊優化方法。該方法充分利用了記憶體匯流排廣播的可擴展性以及廣播機制的廣泛適用性,為DIMM近存計算的通訊優化提供了強有力的新工具。

報告人孫偉藝是論文第一作者(如圖1所示),目前正在清華大學積體電路學院攻讀博士學位。論文通訊作者是劉雷波教授,主要合作者還有李兆石、尹首一等。

圖1 孫偉藝同學報告論文的主要工作

當前,隨著資料密集型應用的廣泛部署,傳統主存系統已難以應對日益增長的容量和頻寬需求。為應對這一挑戰,諸多近存計算架構被相繼提出,其中基於DIMM的近存計算架構是公認最具潛力的架構之一(如圖2所示)。

該架構把計算邏輯整合到DIMM的快取晶片上,通過讓記憶體通道內多個DIMM並行訪存和計算,實現較高的總訪存頻寬,從而以較低的設計與生產代價獲得較高的效能提升潛力。然而,DIMM近存計算系統的效能提升依賴於DIMM數量的增加,但現有DIMM間基於記憶體匯流排的點對點通訊機制卻可能嚴重製約系統性能相對於DIMM數量的可擴展性。

具體來說,當一個記憶體通道內DIMM數量增加時,每個DIMM分配到的平均點對點通訊頻寬迅速減小,對於許多重要的資料密集型應用,各個DIMM和CPU之間的通訊主導了程式的運行時間,極大限制了系統的整體效能。

圖2 基於DIMM的近存計算架構

針對該問題,魏少軍、劉雷波團隊提出了DIMM間廣播技術。

從硬體角度來看,匯流排系統在物理層面上天然支援廣播,且主存匯流排的有效廣播頻寬隨著DIMM數量的增加而自然擴展。而從軟體角度來看,大量資料密集型應用都能以「廣播主導」的方式實現。

基於上述想法,團隊設計了ABC-DIMM系統,通過在主存中實現並利用「DIMM間廣播」來消除DIMM近存計算架構中的通訊瓶頸。該系統由三部分構成。

首先,團隊設計了指導程式設計師以廣播主導方式實現各類應用的「廣播-計算」程式設計框架,從而讓軟體能夠充分利用「DIMM間廣播」來優化通訊。如圖3(a)所示,它通過分割輸出來劃分任務,而任務間的通訊則由輸入資料的廣播所主導。

其次,團隊提供了「記憶體通道內」和「記憶體通道間」的完整「DIMM間廣播」機制,如圖3(b)(c)所示。利用這些機制,「廣播-計算」框架在多記憶體通道下的通訊可以得到高效的實現,如圖3(d)所示。

最後,團隊為「DIMM間廣播」機制提供了全棧式的硬體和API設計。為使系統實現儘可能地簡單和低廉,團隊將設計開銷和範圍成功控制在了DIMM快取晶片以及CPU的記憶體控制器之內。具體而言,通過在快取晶片中加入指令翻譯模組,「DIMM間廣播」能夠在不更改DRAM晶片的前提下以新DDR指令的形式融入主存系統中。此外,通過對記憶體控制器的有限修改以及相應的API設計,「DIMM間廣播」能夠在不更改ISA的前提下被軟體有效使用。

模擬評估顯示,ABC-DIMM的平均效能分別達到了兩個主流基線近存系統性能的2.50倍和2.93倍。

過去10餘年,魏少軍、劉雷波教授團隊在軟體定義晶片領域取得了多項重要技術突破,關鍵技術在多項國家重大工程中得到批量應用,曾獲國家技術發明二等獎、教育部技術發明一等獎、電子學會技術發明一等獎、中國發明專利金獎、世界網際網路大會15項世界網際網路領先科技成果等。

圖3(a)「廣播-計算」程式設計框架(b)記憶體通道內的廣播機制

(c)記憶體通道間的廣播機制(d)多記憶體通道下「廣播-計算」框架通訊部分的多核實現

關於ISCA

ISCA(International Symposium on Computer Architecture,國際計算機體系結構大會)是提出或發現計算機體系結構新思想、新方法和新成果的重要國際會議,被譽為計算機體系結構領域最權威的會議之一,與MICRO、HPCA 並稱為體系結構三大頂會。超標量架構、多級快取、同步多執行緒和快取一致性等都在ISCA上首次被提出。自1973年以來,ISCA已成功舉辦48屆。


IT145.com E-mail:sddin#qq.com