首頁 > 科技

選超算還是智算?專家:去綜合醫院還是專科醫院

2021-06-25 21:00:08

編者按:政府要服務社會公共產業,適合建「綜合醫院」;企業要服務自身專項需求,適合建「專科醫院」。

隨著數字經濟進入新發展階段,算力已成為核心資源之一。據有關資料統計,我國各類算力中心總量超過46萬個,總面積逾1000萬平米,且未來將保持一定概率的增長。

然而,儘管算力這個詞在近年來很「火」,但其背後的含義,卻很少有人真正瞭解。「算力」受到關注,但背後的技術領域依然小眾、認知門檻高,「如果連算力概念都不瞭解,那麼企業、政府在規劃算力中心時難免吃大虧,甚至出大事。」

基於這個問題,AI科技評論與某超算中心主任進行了訪談,在本文中討論了算力中心建設的要點,並分析該如何正確理解算力,以及釐清該領域經常被誤會的地方。

一、對立統一

算力中心有多種,大致可分為資料中心、超算中心、智算中心等,而它們都可以用雲的形式來提供服務。

其中資料中心在網際網路企業中常用到,用於處理資料密集、通訊密集的事務性任務,比如手機app應用的後臺資料數理。超算中心更偏重於科學計算等計算密集型的任務。最後,智算中心則應用於特定的大規模AI任務。

超算和智算之間更容易被混淆,但要區分它們其實也很簡單,「我們可以把超算看成綜合醫院,把智算看成專科醫院。」綜合醫院、專科醫院都有其存在的價值,並在動態意義上可以互相轉化,由此也暗示超算和智算的對立統一關係。

  • 對立

「很多媒體對算力中心存在許多誤解,甚至都算不上是誤解,很多時候連基本概念都沒有搞清楚。」

近期,某人工智慧計算中心宣佈建成投運,不少媒體報道指出該智算中心的算力規模達到1000P,「AI算力峰值效能相當於5萬臺高效能運算機。」

專家表示,媒體這種說法並不專業,就像說飛機飛的比100座山還高。「一座山的高度可能是100米,可能是8848米。一臺高效能運算機,可能有10個節點,也可能有10000個節點。」

另外,人們可能會認為,該智慧計算中心的算力已經超越了曾獲得超算TOP500榜單第一的富嶽(537PFLOPS)。

但實際上,超算採用「FLOPS」即每秒浮點運算數為算力單位,而智慧計算的算力單位一般會採用「OPS」即每秒操作次數為算力單位,兩者是完全不同的度量單位。

此外,智慧計算的效能結果(單位OPS)通常是基於半精度及整型運算測試(AI基準)得到的,超算的效能結果(單位FLOPS)則是基於雙精度、單精度浮點運算測試(Linpack)得到的。

對於超算和智算之間效能的比較,專家持比較嚴苛的觀點,其表示1000POPS效能可能相當於0 PFLOPS,「這裡面涉及到能與不能的問題。具體還要看運算精度,而運算精度最終是影響到可執行的任務類型的。就好比,我們不能說十個牙科診所相當於一個綜合醫院。」

計算機的精度類型包括雙精度、單精度、半精度以及整數類型等,隨著精度減小,其表示的數值範圍依次大幅度降低,同時對應硬體能勝任的任務也越來越聚焦到特定領域。

註釋:【100P雙精度效能超算】和【1000P半精度浮點效能智算】執行任務對比

註釋:不同精度可執行任務對比

「在AI推理、AI訓練、模擬這個維度上,晶片的應用上限由其底層構造所決定,即使採用軟體優化也無法再往上提升。」

此外,有些廠商還會模糊智慧計算機的推理效能和訓練效能,或者在同為FLOPS單位的情況下,掩蓋運算精度細節。「比如近期被媒體廣泛宣傳的聲稱達到超算TOP500第五的國外超級計算機,其實更接近於智慧計算機,它的效能數值其實也是基於低精度運算得到的。」

  • 統一

由於精度上的限制,使得智慧計算機受限為專用算力,一般僅支援單個場景,而無法提供平臺性的服務。比如安防領域擁有海量視訊,智算中心可以只做一個任務即視訊處理,並且做10年乃至20年,它都能表現的很好。「但是,讓智算中心去跑需要運行數萬不同類型軟體的任務,那就是勉為其難了。」

因此,智算中心並不適用於公共服務型的算力中心,而更適用於企業。

超級計算機則是一種通用算力,更加擅長高精度計算,可勝任行星模擬、新材料開發、分子藥物設計、基因分析等科學計算任務,以及能源、氣象、工程模擬、生物基因、智慧城市等。

當然,超算的勝任任務還包括人工智慧,我們可以深入到晶片層面來比較。如果底層晶片採用的是CPU+GPU,那麼其既能打造成超算,也可以打造成智算。因為GPU既能做雙精度運算,從而通用性很好,可用於科學計算,也可用於AI的模擬、訓練、推理。

而如果底層晶片採用的是CPU+專用晶片比如AI晶片,那麼其只能打造成智算。因為AI晶片無法做雙精度浮點運算,雙精度浮點運算大量涉及線性代數方程求解,「自然界的很多問題,包括科學問題、社會問題等,最後都可轉化為線性代數方程求解問題。」

儘管總存在某一方向主導的局面,但專家認為,我們仍然應該兩者兼顧,不能厚此薄彼。

超算和智算並不是互相排斥的存在,而是對立而統一的關係。也就是說,超算和智算應該作為兩條路線分別發展,並在整體上協同,基於不同應用、服務物件建立不同的算力中心。超算相對更適合用於公共算力服務,智算更適合服務定向企業。

二、降本增效

明確了算力中心多樣性的整體佈局理念之後,接下來要考慮的,自然是在每一條路線上發揮最大效用,即降本增效——提升算力中心的有效性。從方法論上,可以簡單總結為「花更少的錢,做更多的事。」

  • 降本

造價越高的算力中心,不代表性能同等地提高。以粵港澳大灣區的兩家算力約等的計算中心項目為例,項目A的整體算力為1170POPS,造價約為5億元;而使用同等精度晶片的項目B整體算力為2000POPS,效能略超前者,造價卻達到了驚人的近30億元。換算下來,兩者每億元算力分別為234POPS、66.7POPS,相差350%。

也就是說,不同的算力中心在價效比上可能差別特別大。算力中心由於市場化不足,政府獲得的資訊不對稱,使得造價不透明,一定程度造成了公共財政資源的浪費。

此外,將效能和任務相匹配,即「因地制宜」,仍然是最省錢的方式。除了上述提到了智算更專用,超算更通用以外,反過來看,不同行業適合的算力中心類型也是不同的,主要基於兩個維度,即通用和效能。

比如618、雙11等購物節涉及的任務類型非常多,更適合用資料中心來處理;而像氣候模擬、藥物篩選等定義相對單一的任務則涉及大量的高精度計算,則必須用超級計算機來處理;在網際網路大資料、人工智慧應用場景下,超級計算機和智慧計算機均能勝任。

智慧計算機確實在向前發展,但專家再次強調,智慧計算機所謂速度和能耗上的優勢只是理論上的,而在實際應用中,智慧計算機的表現不一定比超級計算機好。這背後的原因,即是「生態」——如何做更多的事。

  • 增效

「由於專用晶片的市場佔有率低,生態支援上不如通用晶片那麼完善,因此其在實際運行中往往在效能、速度、功耗上不一定能超越通用晶片。智算當前面臨的一大困難是生態建設,普及程度還很差。」

專家主要強調的是理論和實踐的差距,而媒體宣傳中可能瞄準的是另一些層面。生態一般更注重通用性和平臺性層面,但最好不要籠統地對任何一種計算類型談論生態,因為所謂通用性和平臺性也是相對的。

「如今很多媒體經常說出諸如‘智算中心生態不行’的話語,這種表述既對,也不對。首先智慧計算確實支援的應用很少,因此說它‘生態不行’是可以的。雖然智慧計算只能用於特定AI應用,但如果在個別應用上達到一定的通用性,也能構成一種小生態。」

三、求同存異

回顧歷史,計算機的發展主要遵循兩條路線,即專用和通用,並且這兩個趨勢經常交替出現。「在某一個時刻,我們可能更追求計算機的多工即通用效能,直到碰到瓶頸,然後我們就會開始轉向另一個方向,即犧牲一定的多樣性,而追求某一專項任務的高效能。效能強、效率高、應用廣泛(通用)一直是超級計算機的追求,而專用晶片也在不斷地嘗試拓寬自己的能力邊界。」

因此,儘管智算的發展目前尚屬幼稚,但正如超算就像綜合醫院、智算就像專科醫院,「超算、智算兩者各有其適用的領域,應該求同存異。」

近年來算力這個詞不斷地被大眾所提及,在新基建的大背景下,這體現了社會對算力的真實需求。

「但是,對於從業人員而言,最重要的還是腳踏實地、一步一步地把基礎性工作做好,讓算力真正成為競爭力和生產力。」

雷鋒網雷鋒網雷鋒網


IT145.com E-mail:sddin#qq.com