首頁 > 軟體

「晶片+AI 算力+AI 開發平臺」,合肥君正公佈全棧式低功耗 AI 技術

2021-05-21 04:30:52

習慣在針尖上跳舞的合肥君正,在萌芽之時就認識到AI的重要性。

2014年前後,視訊晶片市場已有眾多廠商,且大多鏖戰成像和傳輸。彼時的君正意識到,用模仿的方式硬生生地去打這個市場難以出頭且毫無價值,而AI將成為下一戰場的關鍵。從那時起,AI與演算法部門成為君正最早的技術部門之一。

7年白駒過隙,那些或深或淺的腳印現已踏出一條康莊大道:最近,君正正式公開了自己的AI硬體加速引擎和AI開發平臺Magik。

君正視訊事業部副總經理劉遠表示,這套技術從開始至今,經歷了各方面的錘鍊:

「從T01到T02再到T31/T40,從computer vision到deep learning再到混合量化,從安防攝像機到低功耗門鈴再到立體機器視覺,從Tensorflow/Caffe到Magik,從第一家客戶試探性接入到大量產品演算法落地,這套技術已經從創新研發走到普惠應用。」劉遠說道。

這歷時多年的武器,將往視訊行業投下一枚怎樣的石頭,又怎樣協助下游客戶落地更具競爭力的產品?

直奔落地的一整套「晶片+AI算力+AI開發平臺」解決方案

如何為端側AI應用提供一套成本親和,效能出眾,功耗低,又易於落地的基礎技術元件?這正是合肥君正一直在思考的命題,也是君正AI技術研發的核心目標。

劉遠指出,經過多年摸索,這樣一套基礎技術元件如今包含:

一系列落地晶片:佈局完備,覆蓋高中低階,除AI以外具備完整的各方面競爭力,成本親和,效能均衡,效果出眾,功耗領先,被市場認可並且持續大量出貨。這就像AI和演算法落地生根的土壤,越廣闊越好。一套先進的AI加速硬體:優秀的PPA(Performance, Power, Area),兼具高效能和靈活性,並且通過有效創新,真正突破AI推理在端側產品中的各種瓶頸,使得高發熱,高頻寬,成本冗餘等在實際產品中不再是問題。一個完善的演算法開發平臺:敏捷的演算法移植過程,除了提供一鍵式演算法部署,還提供最先進的量化感知訓練方法論,提供典型網路的全流程開原始碼,讓演算法專家專注於挖掘痛點與資料的價值。

君正的整體AI技術架構如下圖:

其中AI-Engine(AIE)是一整套AI加速硬體,包括CPU,NNA,SIMD,協處理器和RAM Pool等多重加速技術。

主要優勢是「三高三低」:算力高,利用率高,靈活性高;功耗低,外圍成本低,頻寬需求低。

Magik是基於AIE的演算法開發平臺,除了基本的工具鏈還包含其他豐富的輔助開發資源。並且支援後量化和更先進的量化感知訓練(QAT)。

「卷積神經網路的本質是計算,幸運的是,君正一直是國內為數不多的完整CPU計算技術的擁有者,這一點,奠定了我們的AI技術具有較高的發展起點。」

劉遠說道,「而Magik融合了我們這幾年在視覺產品落地上的各種經驗,能夠發揮AIE獨特的領先效能。二者搭配,呈現在行業客戶面前的就是一整套完整的‘晶片+AI算力+AI開發平臺’的解決方案,使得應用者非常容易落地。」

利用這套平臺,可以帶來多方面長遠的優勢:

產品化優勢:這套技術可運行於君正當前和未來的各種晶片當中,下游產業鏈條成熟,碎片化風險低,生態一致性有保障;商業化優勢:已有大量晶片持續出貨,品牌背書充足,能加快演算法賦能和變現的節奏;成本優勢:包括eBOM成本,演算法成本,研發成本等;效能優勢:可獲得更高的物理算力,更高的利用率;低功耗優勢:體現在產品端就是發熱明顯低,續航更好,散熱無憂;

「AIE+Magik是君正原生創新的技術,完全自主。T40作為搭載這套技術的最新一代晶片,卻並非第一代產品。」劉遠強調,「在這之前,我們經過了T01/T02/T31等幾代量產晶片的驗證,積累了大量寶貴經驗,到T40這裡,AIE+Magik已經十分成熟」。

AIE—有效突破端側AI的算力瓶頸

AI-Engine(AIE)是君正完全自主創新的一套AI加速硬體組合,廣泛支援各類神經網路加速,如CNN/RNN/GCN等,也支援傳統CV演算法和平面運算的加速。得益於公司對CPU技術的掌握,AIE實現了其他一般晶片公司難以做到的CPU與NPU的同構設計。

在全球各種不同的AI加速技術路線中,DSA(Domain Specific Architecture)尤其適合端側推理場景。AIE引用了多種DSA的設計理念,實現了一整套滿足複合演算法加速的硬體組成:

支援SMT多核架構的XBurst2 CPU,凝聚了君正團隊20多年的CPU技術精華;128bit/512bit/1024bit位寬的SIMD指令集,針對向量運算加速;算力高達2T - 32T的NN加速陣列,針對張量計算加速,支援混合位寬量化協處理單元,對其他運算加速;高效RAM pool,深度優化記憶體頻寬吞吐實測運行功耗很低,8T算力場景下典型功耗小於500mW,能耗比最低達到了0.05W/T級別

「與雲上的AI晶片加速不同,在端側晶片上,4T算力曾經是天花板,這並不是因為硬體無法將算力繼續提高,而是因為端側產品在算力以外有太多的制約因素。」劉遠解釋道,「如果不優先把NPU內部的PPA、頻寬、功耗等關鍵障礙解決,即使再提高計算矩陣的規模,實際晶片也大概率發揮不出來。」

歸納起來,端側算力的瓶頸主要集中在:產品端的資源限制,演算法多樣性的挑戰和演算法開發環境。

端級晶片在計算資源和成本都面臨限制,無法像雲端伺服器那麼豐富和冗餘。

在終端售價,RAM記憶體容量,ROM模型儲存,發熱控制,DDR的頻寬等方面都面臨極大挑戰。

所以端級產品需要與雲端不同的AI加速技術。

君正AIE特別針對端級應用設計,採用專用硬體架構DSA(Domain Specific Architecture),與常見的NPU相比,有明顯的規格優勢:

MAC利用率提升1到2倍,推理速度提升2到4倍;演算法運行的RAM/ROM消耗減少50%~70%;頻寬降低35%~85%;發熱減少40%~80%。

無論2C還是2B/G市場,不同應用對AI演算法的要求差異很大,即使是相同功能的演算法也難以做到單一模型覆蓋所有場景。

其次人工智慧學術領域仍然在發展,雖然變化的速度減緩,但未來仍然會不斷出現新的網路,新的流程,新的運算元,新的訓練方法等等,這些決定了目前的AI加速硬體還沒有到達統一收斂的階段。

端級演算法本身呈現多樣性,碎片化的客觀現狀。

這就要求晶片中硬體的加速能力非常靈活,能夠應對各種未知運算元/演算法/網路/流程的變化,這一點對AI引擎的設計提出巨大挑戰。

君正AIE結合了多年積累的CPU技術,摸索了一套兼顧高效能和靈活性的創新技術:

算力達2T ~ 32T的NN加速陣列,實現千倍加速比;非標計算協處理單元,實現百倍加速比;128bit到1024bit位寬的SMID指令集,實現幾十倍加速比;RAM Pool系統,顯著降低頻寬;高主頻多核多執行緒XBurst2 CPU。

「過去至今各種行業攝像機搭載的AI演算法,大多存在‘效能冗餘但利用率低’、‘成本偏高但有浪費’、‘功能可用但難以普及’等情況,隨著搭載AIE+Magik的T40逐步到位,能做到8T算力,小於0.5W的加速功耗,並且內建了DDR,這些痛點會得到很大改善。」劉遠表示。

Magik—全棧式深度神經網路開發平臺

硬體是軀體,軟體和演算法是靈魂。如果是AIE是軀體,那麼Magik就是靈魂。

Magik是一個面向端側AI應用的全棧式開發平臺。與一般的AI開發工具鏈相比,Magik包含了更豐富的內涵:

全流程,一體化。集模型訓練、優化轉換、部署推理於一體,並提供模型檢查器、調優器、效能分析器等工具;多框架。全面支援pytorch/tensorflow/mxnet/caffe/onnx等主流框架;量化感知訓練(QAT)。支援2/4/8/16任意精度混合訓練及轉換優化,在保證精度的同時,能充分利用AIE的計算資源;靈活性。同時支援QAT和後量化方案,加速應用靈活部署;開放性。開放人臉/人形等常見演算法的從訓練到部署全流程程式碼,以及經典網路的backbones,增強易用性,加速落地。

「Magik不僅僅是一個AI轉換工具鏈,還是一個豐富的開發平臺,」劉遠補充道,「有工具鏈,framework插件,Model Zoo,常用的backbones,還包括一般攝像機非演算法的支撐功能,例如成像,編碼,幀資料流,記憶體複用優化,儲存降維,多目同步,甚至記憶體洩露防範等都有體現在內,真的值得用一用」。

Magik的一大特色是支援較為先進的QAT方法論。端級AI應用目前大多還停留在後量化方法階段,相比QAT,後量化更像是端級AI的過渡階段。後量化過程相對簡單,但精細度不足,算力容易形成浪費,功耗成本頻寬等難以解決。QAT方法能夠更精細地根據加速硬體的特點調整訓練細節,從而發掘端級AI算力的潛力,達到提升算力利用率,降低功耗,頻寬和成本的效果。

使用Magik的開發過程很容易上手,流程示意圖如下:

「Magik就像一把‘雲梯’,幫助客戶快速落地AI演算法和視覺產品,它能給行業帶來長期的助力」。

與AIE的發展相輔相成,Magik具有未來小型生態的潛力,其堅實基礎是君正過去,目前和未來所有的算力晶片,只要君正晶片能夠覆蓋到的市場領域,都可以發揮作用。

春風化雨時,潤物細無聲

「早幾年當AI的浪潮滾滾而來,喧囂塵上之時,我們並沒有太多發聲,但並不代表我們沒有行動。」劉遠講道,「當東西沒有真正拿得出手時,我們自己心裡這一關就過不去。而現在,AIE+Magik這一套技術,已經服務了很多客戶,並讓不少人嚐到了甜頭」。

據瞭解,AIE+Magik已經成功服務了超過幾十家客戶,包括一些行業知名品牌,傳統演算法公司,行業監控企業,大型網際網路品牌,運營商以及初創極客。

這些服務,遠超演算法開發這個層面。要實現裝置承載不同的演算法運行,首先需要克服演算法計算標準化的困難,但這只是端側AI落地過程中挑戰的冰山一角。

除此之外,裝置的產品屬性,可量產屬性,消費者體驗屬性以及開發週期等方面都需要大量的投入。

君正完成了各種典型視覺產品的方案積累,例如安防監控,物聯網視覺,低功耗成像,智慧辦公,文字掃描,生物識別,立體視覺等領域都能提供完整的解決方案,讓演算法賦能只需要做簡單加法就可以落地。

「這樣做有沒有社會價值,有多大的社會價值,是推動我們每一項產品和技術研發的精神核心。」

北京君正副總經理黃磊曾多次強調。在AIE+Magik的落地過程中,賦能下的各大下游企業的產品價值,都是對這一說法的精準註腳。

「有一家演算法專業型的客戶,本身有很強的演算法開發能力,基於君正晶片和Magik平臺,開發了全新的產品系列。新產品系列比之前的老產品,成本下降了一個數量級,實現小型化。客戶還獨立完成了人臉識別演算法的移植,運行效果十分良好。」

劉遠介紹說,「與此同時,另一家知名的銷售專業型客戶,本身演算法能力不強,但是非常清楚消費者痛點。基於君正晶片和Magik平臺,在君正的輔助下建立了演算法團隊,利用Magik平臺的開原始碼和網路,基於自己的資料資源訓練了人形偵測演算法,客戶利用消費者優勢,不斷對演算法進行迭代,最終以運營方式上線演算法,消費者反饋良好,運營轉化率高於預期。」

不知不覺間,優質的服務成為了君正在智慧視覺市場的核心競爭力之一。

目前隨著T40晶片到位,很快將有更多搭載AIE+Magik的產品陸續進入市場。基於T40打造的視覺產品,能做到4T/8T算力,能耗比最低達到0.05W/T級別,外圍BOM很簡單,晶片售價做到幾個美金。配合Magik和各種成熟方案資源,T40有望成為AI視覺大市場的細雨春風。雷鋒網雷鋒網雷鋒網


IT145.com E-mail:sddin#qq.com