首頁 > 軟體

進擊的飛槳平臺新發布,你想知道的都在WAVE SUMMIT2021

2021-05-21 15:01:46

5月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦WAVE SUMMIT2021深度學習開發者峰會在北京盛大舉行。百度首次揭曉人工智慧融合創新趨勢下的AI工業大生產實現路徑,飛槳深度學習平臺帶來全新發布,持續引領深度學習技術發展。

峰會上,百度深度學習技術平臺部高階總監馬豔軍就飛槳全新發布與升級展開演講。他表示,年初飛槳正式釋出了開源框架2.0版本,是飛槳發展歷程中的重要里程碑。2.0版本預設的程式設計正規化由靜態圖升級為動態圖,而且實現了動靜統一的設計,很好地兼顧了科研和產業的需求。目前,飛槳深度學習開源平臺從基礎模型庫、端到端開發套件到工具元件,都基於框架2.0版本進行了升級,開發體驗得到了全面提升。2.0版本的大規模訓練能力持續突破,參數伺服器技術迭代到第三代,是業內首個通用異構參數伺服器架構。最近又釋出了4D混合並行技術,支援超大模型訓練。

此次峰會飛槳框架又迎來了重磅釋出,展示最新的技術成果和開源生態成就,其關注程度可想而知。接下來,我們來逐一揭祕飛槳開源深度學習平臺從開發、訓練、部署全鏈路的最新成果。

 飛槳開源框架V2.1,技術底座呈破圈之勢

基礎設施一小步,AI上線一大步。

峰會上,飛槳開源框架正式釋出V2.1版本,自動混合精度、動態圖、高層API等進行了優化和增強。尤其是自定義運算元功能全面升級,降低開發者自定義運算元的學習與開發成本。「自定義OP功能優化」等升級帶來極強的科研開發靈活性和擴展能力,產業應用已從成熟的AI行業延伸到生物、物理、化學等大科學跨界領域的開發整合,助力前沿基礎科學研究。

封裝更簡潔、訓練和推理全打通、一鍵編譯、安裝並生成運算元API,有效降低了開發者編寫和使用自定義運算元的成本,讓開發者更加專注於運算元計算的本質。深度勢能的分子動力學開源項目(DeePMD-kit)就是一個典型的案例。DeePMD-kit釋出以來,在凝聚態物理、化學物理、材料理性設計、生物物理、藥物分子設計等領域均得到廣泛應用。DeePMD-kit的社群開發者使用飛槳框架的自定義OP功能可以方便地進行計算單元的自定義,加速功能開發。

開發上便捷靈活、應用上普適多元。飛槳正在一步步創造領先同行的深度學習開源能力,產業滲透已呈「破圈」之勢。

 大規模圖檢索引擎,特殊場景的「啟動密碼」

隨著大規模圖學習在知識圖譜和搜尋推薦領域的廣泛應用,大規模圖模型訓練愈加受到重視,已經成為諸多特殊場景的「啟動密碼」。

飛槳提供了從分散式資料處理、圖檢索、前向反向圖模型計算、多server參數更新的全流程通用分散式能力,形成了大規模圖模型訓練架構。對於其中圖檢索環節,此次釋出的圖檢索引擎,可以高效支援萬億邊的圖儲存和檢索,將圖的鄰接表通過雙層雜湊切分方式存放到不同graphserver上。worker端請求graphserver通過圖檢索引擎獲得子圖進行訓練。最後在Intel CPU環境上實測,可以支援萬億邊圖模型訓練,也很好地支援線性擴展。

這一技術在網易雲音樂主播推薦業務進行了應用。基於大規模圖檢索引擎和飛槳分散式訓練技術,成功支撐語音主播業務十億邊的圖模型訓練,通過知識遷移有效解決冷啟動問題,提高主播推薦場景有效播放率。

 ERNIE四大預訓練模型,開源家族又添生力軍

模型套件方面,文心ERNIE全新開源釋出 4大預訓練模型,分別是多粒度語言知識增強模型ERNIE-Gram、超長文字理解模型ERNIE-Doc、融合場景圖知識的跨模態理解模型ERNIE-ViL和語言與視覺一體的模型ERNIE-UNIMO。知識與深度學習相結合實現知識增強的語義理解,不僅僅能理解語言,還可以理解影象,實現統一的跨模態語義理解。

ERNIE-Gram提出顯式的n-gram掩碼語言模型,通過引入多粒度語言知識增強預訓練模型效果,5項典型中文文字任務效果顯著超越業界開源的預訓練模型。

ERNIE-Doc針對篇章長文字建模不充分問題,提出回顧式建模技術和增強記憶模型機制,在13 項長文字理解任務上取得領先效果。

ERNIE-ViL針對跨模態理解難題,基於知識增強思想,實現了融合場景知識的跨模態預訓練,在5項跨模態理解任務上取得效果領先。

ERNIE-UNIMO進一步增強不同模態間的知識融合,通過跨模態對比學習,同時提升跨模態語義理解與生成、文字理解與生成的效果,在13項跨模態和文字任務上實現領先。

推理部署導航圖,打通AI應用最後一公里

在產業數字化背景下,AI建設從網際網路市場向千行百業邁進,落地成為必然要求。AI能否順利推理部署,已經成為落地成敗的關鍵。飛槳提供全流程的深度學習開發工具。針對不同的軟硬體部署環境,飛槳都提供了完善的推理部署工具,並打通了完整的工具鏈。

峰會現場,飛槳多端多平臺推理部署工具鏈釋出全面升級。飛槳模型壓縮工具PaddleSlim模型壓縮升級,優化剪枝壓縮技術,新增非結構化稀疏工具,擁有軟硬一體協同優化的能力,結合多種壓縮策略優勢,率先支援 OFA 壓縮模式,面向不同部署環境實現高精度壓縮。飛槳的輕量化推理引擎Paddle Lite也進行了全面升級,兼具穩定易用、效能優異、多硬體支援諸多特性。針對服務化部署的實際需求,Paddle Serving 新增全非同步設計的 Pipeline 模式,可以一個服務啟動10+模型,打破序列設計的約束,提升吞吐量和 GPU 利用率。飛槳的前端推理引擎Paddle.js 新升級後保持高相容性,完整支援了飛槳框架2.0及之後版本的模型格式,新增支援多種 Backend和主流影象分割及分類模型,在高相容性的同時兼顧了高效能。另外,Paddle.JS還推出了前端模型加密解決方案,有效提高業務的安全性。

推理部署工具鏈各個工具正加速升級,而整個鏈條是否通暢也非常重要,這一定程度上決定了AI應用最後一公里的路能否走順。峰會現場,一張飛槳推理部署導航圖成功吸睛,300多條部署通路一目瞭然,深刻詮釋了飛槳在打通AI應用最後一公里所做出的不懈努力。

 硬體生態新成果,AI工業大生產「朋友圈」再擴容

AI基礎軟硬體生態構建意義非凡,晶片與深度學習框架的融合成為構建全球領先的AI 應用與推廣生態的關鍵。

飛槳的枝繁葉茂也離不開廣大硬體生態夥伴的支援。硬體生態方面,從去年WAVE SUMMIT2020峰會發布硬體生態夥伴圈到今天的一年時間裡,飛槳已經和包括百度崑崙、英特爾在內的22家國內外硬體廠商開展適配和聯合優化,已完成和正在適配的晶片或IP達到了31款。

飛槳正與合作伙伴們攜手,加快軟硬一體適配,提供功能強大、高效、可擴展和高效能的解決方案,助力實現AI創新,推動AI工業大生產的實現程序。峰會現場,英特爾、英偉達、海光、華為昇騰、瑞芯微多家合作伙伴進行了企業硬體生態成果展示,飛槳生態的硬體朋友圈再次擴容。

 螺旋槳、量槳最新升級

當天除了全新發布,還見證了螺旋槳、量槳的最新升級。

螺旋槳 (PaddleHelix)升級到了1.0正式版本,新增了化合物預訓練模型ChemRL,並將ChemRL模型應用到更多的下游任務。在今年3月,國際權威的圖神經網路OGB 上,在HIV和PCBA兩個藥物相關的資料集上,獲得雙冠軍。

量槳( Paddle Quantum)適配飛槳框架2.X,整體運行大幅度提升;量槳的整體功能也得到了進一步加強,適配了近期量子裝置,新增量子核方法等特徵提取方式等。對於難度很大的糾纏提純任務,量槳新增了最優化量子糾纏處理框架,給出了目前業界最優且可實施的提純方案,多個場景達到業界最優。

AI大生產階段,作為百度大腦「AI大生產平臺」的基礎底座,飛槳始終保持著高頻更新迭代,是「技術使能者」也是「價值賦能者」。IDC資料顯示,飛槳是全球排名前三的深度學習框架。目前,飛槳平臺已經凝聚了320萬開發者,相比一年前增幅70%,服務12萬家企事業單位。飛槳「AI賦能萬物」的磅礴力量再次凸顯,也用行動踐行著百度「用科技讓複雜的世界更簡單」的使命。


IT145.com E-mail:sddin#qq.com