经过 Intel <em>CPU</em> 环境上实测,该引擎不仅支持万亿边图模型训练,也能够很好地支持线性扩展。 据介绍,这项技术已在网易云音乐的主播推荐场景上进行了应用:大规模图检索引擎和飞桨分布式训练技术,成功支撑了语音
2021-05-21 22:31:41
機器之心報道
機器之心編輯部
百度飛槳的努力,讓開發者有了更多遊戲時間。
在飛槳框架的版本號升級到 2.1 之後,一切都已不一樣了。
深度學習框架的行列中,百度飛槳的實力一直讓人無法忽視。因此,飛槳也已吸引了大量使用者,構建了無數工業級應用。
「飛槳平臺已吸引了超過 320 萬開發者,相比一年前增加近 70%,同時其服務的機構達到了 12 萬家。飛槳的發展壯大,見證了 AI 工業大生產的如火如荼。」百度首席技術官、深度學習技術及應用國家工程實驗室主任王海峰博士,在昨天的 Wave Summit 深度學習開發者峰會上向我們展示了一連串數字。
5 月 20 日下午,Wave Summit 2021 在北京正式舉行。在活動中,百度釋出了飛槳九大最新發布和全平臺升級,這些新技術和工具來自百度源於產業實踐的技術、與開發者共生的開源生態,它們正推動著產業智慧化加速到來。
王海峰在 Wave Summit2021 上做開場致辭。
飛槳帶來的九大新發布其中包含 6 項技術產品,以及 3 個生態成果和計劃。除了為飛槳加入一系列新功能之外,百度還展示了自己在 AI 領域的最新研究成果。
這其中包括:
飛槳開源框架 2.1 版雲原生機器學習核心 PaddleFlow全新推理部署導航圖全新大規模圖檢索引擎開源文心 ERNIE 四大預訓練模型硬體生態大範圍覆蓋飛槳「大航海」計劃……
作為「人工智慧時代的作業系統」,飛槳連線了智慧晶片的算力與大量基礎應用,讓最先進 AI 演算法的大規模應用成為可能。
飛槳框架 2.1:開發體驗太妙了
藉助飛槳,數百萬開發者已不再需要從頭開始編寫 AI 演算法的程式碼,即可高效進行技術創新並應用於業務。機器學習門檻的大幅降低,加快了人工智慧應用的多樣化和規模化。在這背後,百度的 AI 技術經歷了長時間的發展。
百度早在 2013 年就成立了深度學習研究院,2016 年 8 月,它率先開源了深度學習框架 PaddlePaddle(飛槳),打造了中國首個自主研發、功能完備、開源開放的產業級深度學習平臺。隨著這一體系的不斷改進,飛槳吸引了數百萬開發者。
今年 3 月,飛槳迎來了發展歷程中的一個里程碑:2.0 正式版的釋出。對於飛槳平臺來說,這是一次向智慧化「基礎設施」進化的全面換代。除了成熟的動態圖模式,其在 API 系統、大規模模型訓練、軟硬體一體化等方面均有大量革新。
5 月 20 日的 Wave Summit 上,飛槳開源框架正式升級到 2.1 版本。百度深度學習技術平臺部高階總監馬豔軍帶來了關於飛槳開源的最新進展和釋出。
飛槳技術升級
飛槳新版本首先提升的是訓練速度。飛槳開源框架 V2.1 著重優化了自動混合精度訓練,最大化地使用 FP16 計算,減少與 FP32 的轉換開銷,並使用了多種策略自動保證模型正常收斂。此外,飛槳開源框架 V2.1 還優化了大量 FP16 運算元的效能,在多個領域的主流模型上都有明顯的效能提升。
以 ResNet50 和 BERT 為例,啟動自動混合精度功能後,模型的訓練速度可以提升 3 倍,與同類系統相比處於領先水平(超過了 PyTorch 和 TensorFlow)。
其次,飛槳框架 2.1 版本的動態圖功能進一步增強,新增了 inplace 操作功能,實現了自動視訊記憶體複用,可將視訊記憶體佔用降低 17.7%。此外還優化了 Python/C++ 互動的開銷,提升即時執行效率,使得訓練速度提升 11%。
在飛槳框架 2.0 版本正式推出的高層 API,這一次也進行了升級,增強了資料預處理類 API,擴展了基於 GPU 裝置的計算能力,此外在全流程訓練上增加了混合精度策略支援。2.1 版本還新增了模型共享機制,高層 API 可以直接呼叫飛槳官方演算法庫中的經典的、複用性高的模型。
同時,飛槳開源框架 V2.1 對自定義運算元功能的易用性進行了大量優化,降低開發者自定義運算元(op)的學習與開發成本。現在的運算元封裝更加簡潔,隱藏了不必要的框架底層概念,同時徹底打通了訓練和推理。通過封裝 Python 端擴展 API,實現了一鍵完成自定義運算元編譯、安裝與介面自動生成,有效降低了開發者編寫和使用自定義運算元的成本,讓開發者更加專注於運算元計算的本質。
「在新版本中,就可以像呼叫飛槳 API 一樣呼叫自己寫的自定義運算元了。」馬豔軍說道。
模型部署,全面增強
在大會中,百度還分享了飛槳推理部署工具鏈的最新升級。至今,模型部署仍是 AI 產業實踐中的難題,推理部署工具鏈條是否通暢,一定程度上決定了 AI 應用最後一公里路走得好不好。
飛槳模型壓縮工具 PaddleSlim 有兩項重要升級。首先是優化了剪枝壓縮技術,新增了非結構化稀疏工具。早期剪枝使用結構化稀疏的方式,剪枝時以某個結構為單元,這樣雖然可以直接減小 Tensor 的尺寸和計算量,但一些有價值的網路結構會被「誤傷」。而非結構化稀疏則是以每一個數值為單元進行剪枝,更加精確、靈活,通用性、易用性也都非常好。
此外,PaddleSlim 率先支援了 OFA(Once For All)壓縮模式,結合多種壓縮策略的優勢來保障壓縮後模型的精度;介面簡潔對使用者程式碼低侵入,讓使用者無需修改現有的模型訓練程式碼。這種方法的可移植性較好,訓練一個超網路就可以得到多個適配不同部署環境的子模型,只需對模型微調即可。
藉助 OFA 策略,BERT 模型體積減小了 26%,CPU、GPU 實現明顯加速。綜合使用 PaddleSlim 的壓縮策略,CycleGAN 體積減小 97%,CPU、GPU 均有大幅加速。
飛槳的輕量化推理引擎 Paddle Lite 也進行了全面升級。近日,百度釋出了面向移動開發者的開箱即用工具集 LiteKit,針對移動端開發的特點對 Paddle Lite 進行了封裝,顯著降低了端側 AI 開發者的開發成本。此外,Paddle Lite 在 ARM CPU 和 OpenCL 的推理效能也進一步提升,尤其在廣泛應用的 INT8 效能持續保持領先。硬體支援方面,Paddle Lite 與包括瑞芯微、Intel FPGA 開發套件在內的硬體的進一步融合適配,滿足了更多應用場景的需要。
針對服務化部署的實際需求,Paddle Serving 新增了全非同步設計的 Pipeline 模式,以更好支援現實業務中模型組合使用的問題。多模型應用設計複雜,為了降低開發和維護難度,同時保證服務的可用性,人們通常會採用序列或簡單的並行方式,但這種情況下吞吐量僅能達到一般可用狀態,且 GPU 利用率普遍偏低。Paddle Serving 的升級很好地解決了這個問題。
右圖是在 PaddleOCR 上的測試資料。可以看到,隨著使用者訪問數量的增加,非 Pipeline 模式無論是吞吐量或 GPU 利用率都很快達到了瓶頸,而 Pipeline 模式依然穩步提升,可有效支援企業的大規模部署需求。
飛槳前端推理引擎 Paddle.js 也獲得了進一步增強。升級後的 Paddle.js 保持高相容性,完整支援了飛槳框架 2.0 及之後版本的模型格式,新增了對多種 Backend 和主流影象分割及分類模型的支援,在高相容性的同時同時也兼顧了高效能。新增的 WebGL Pack 功能則可以實現資料四通道排布平行計算,減少資源佔用。
另外,Paddle.JS 還推出了前端模型加密解決方案,在模型檔案離線加密、訪問受控、運行推理受控三個重要環節加強保障,有效提高業務的安全性。
飛槳推理部署工具鏈上的技術升級完成之後,為了讓開發者能夠快速將想法投入實踐,瞭解「哪條路走得通,哪條路還未走通」,百度將自身 AI 技術實踐的經驗做成了一張推理部署導航圖供人蔘考:
據介紹,這其中已經涵蓋了 300 多條經過充分驗證的部署通路,未來還會增加更多路徑。
雲原生機器學習核心 PaddleFlow
除了效能增強和改進,百度本次還宣佈機器學習核心 PaddleFlow 開放邀測。PaddleFlow 是首個為專為 AI 平臺開發者提供的雲原生機器學習核心系統,人們可以基於它開發出更多細分場景和深度定製的 AI 平臺。
根據百度 AI 產品研發部總監忻舟介紹,PaddleFlow 具有三層結構,為開發者提供了資源排程、作業執行與服務部署等AI開發平臺核心能力,以及友好的開發介面。
在資源排程層,PaddleFlow 帶有 AI 平臺運行所需的儲存,及計算資源的統一接入/排程。支援高效能的 AI 異構計算資源管理,並提供靈活豐富的資源排程策略,包括拓撲感知、超發搶佔、GPU 虛擬化等。它支援常見的各種儲存系統的統一對接,還提供了高效能儲存中介軟體來加速 AI 計算時資料訪問的效率。
在作業執行和服務部署層,提供了AI平臺核心關鍵能力,從作業排程、工作流排程,到模型的管理以及預測服務的管理,並支援包括飛槳在內的深度學習框架以及演算法庫,以及常見的Spark、MPI等計算類型。
在使用者接入層,PaddleFlow提供易被整合的 REST API、命令列客戶端等多種形式,還提供了多租戶和基本的認證授權機制,另外對平臺管理員支援簡單的管理操作,包括任務檢視、資源管控等。
百度表示,這一工具效能優異,支援數萬算力卡排程、數千併發作業數的大規模並行訓練的能力。同時,PaddleFlow 也非常輕量和易於應用,可以實現一鍵部署安裝。針對市場上大多數實際應用條件是單機的情況,PaddleFlow 還對單機部署做了大量優化。
在 AI 領域最熱方向,提出更強技術
飛槳框架 2.1 版中還有幾個值得關注的重要新技術。
萬億規模圖檢索引擎
圖神經網路是最近 AI 領域的熱門方向,隨著大規模圖學習在知識圖譜和搜尋推薦領域的廣泛應用,大規模圖模型訓練愈加受到重視。飛槳提供了從分散式資料處理、圖檢索、前向反向圖模型計算、多 server 參數更新的全流程通用分散式能力,形成了大規模圖模型訓練架構。
對於圖檢索環節,5 月 20 日,百度正式釋出了大規模圖檢索引擎,將圖的鄰接表通過雙層雜湊切分方式存放到不同 graphserver 上,worker 端請求 graphserver 通過圖檢索引擎獲得子圖進行訓練。經過 Intel CPU 環境上實測,該引擎不僅支援萬億邊圖模型訓練,也能夠很好地支援線性擴展。
據介紹,這項技術已在網易雲音樂的主播推薦場景上進行了應用:大規模圖檢索引擎和飛槳分散式訓練技術,成功支撐了語音主播業務的十億級邊的圖模型訓練。通過知識遷移,現在推薦系統可以有效解決冷啟動問題,提高推薦場景中的有效播放率。
文心 ERNIE 開源四大預訓練模型
百度也在不斷推動著 NLP 模型技術研究層面的創新。這一次,文心 ERNIE 語義理解開發套件全新開源釋出了 4 大預訓練模型:分別是多粒度語言知識增強模型 ERNIE-Gram、超長文字理解模型 ERNIE-Doc、融合場景圖知識的跨模態理解模型 ERNIE-ViL和語言與視覺一體的模型 ERNIE-UNIMO。
知識與深度學習相結合實現的語義理解,不僅僅能理解語言,還可以理解影象,實現統一的跨模態語義理解。
其中,ERNIE-Gram 提出了顯式的 n-gram 掩碼語言模型,通過引入多粒度語言知識增強預訓練模型效果,在 5 項典型中文文字任務效果顯著超越業界開源的預訓練模型。
ERNIE-Doc 針對篇章長文字建模不充分問題,提出回顧式建模技術和增強記憶模型機制,在 13 項長文字理解任務上取得了領先效果。
ERNIE-ViL 針對跨模態理解難題,基於知識增強思想,實現了融合場景知識的跨模態預訓練,在 5 項跨模態理解任務上取得效果領先。
ERNIE-UNIMO 進一步增強不同模態間的知識融合,通過跨模態對比學習,同時提升跨模態語義理解與生成、文字理解與生成的效果,在 13 項跨模態和文字任務上實現了測試成績的領先。
打造最強 AI 算力
強大的 AI 平臺不僅需要軟體和演算法,也需要 AI 晶片的算力,百度飛槳正在與各家晶片廠商進行適配,同時也在研究下一代計算機架構。
硬體生態成果:飛槳硬體生態路線圖
去年,百度在 Wave Summit 峰會上正式釋出了飛槳硬體生態夥伴圈,如今已有超過 20 家晶片、伺服器、ISV 領導廠商相繼加入,已適配的晶片或 IP 達到了 31 款,全面地覆蓋了國內外知名硬體廠商。
螺旋槳和量槳的升級
在 2020 年 12 月的 Wave Summit + 峰會上,百度正式釋出了生物計算平臺「PaddleHelix 螺旋槳」。飛槳也開啟了與生物計算的「跨界」之旅。
目前,螺旋槳 PaddleHelix 已經升級到了 1.0 正式版本,新增了化合物預訓練模型 ChemRL。而且 ChemRL 模型已經應用到了 ADMET、虛擬篩選等下游任務:今年 3 月,在國際權威的圖神經網路基準 OGB 的 HIV 和 PCBA 兩個藥物相關的資料集上,ChemRL 獲得雙冠軍。百度也正式開源了 PaddleHelix(https://github.com/PaddlePaddle/PaddleHelix),供更多開發者探索使用。
經歷了一年的發展,在 2020 年 5 月釋出的國內首個量子機器學習開發工具「量槳」獲得了又一次升級。量槳與飛槳框架 2.0 及其之後的版本同步更新,整體運行速度得到了大幅提升,在核心應用場景平均提升達到 21.9%,最高提升達到 40.5%。
其整體功能也得到了進一步加強,適配了近期量子裝置,新增量子核方法等特徵提取方式。對於難度很大的糾纏提純任務,量槳新增了最優化量子糾纏處理框架,給出了目前業界最優且可實施的提純方案。
EasyDL 和 BML 雙平臺:全面升級
面對各個行業面臨的眾多場景需求,飛槳企業版採用 AI 開發雙平臺的形式——EasyDL 零門檻 AI 開發平臺和 BML 全功能 AI 開發平臺,讓不夠精通人工智慧演算法的企業開發者能夠像使用家電一樣簡單的用起 AI,更多的專注於業務場景和創新。另一方面,AI 技術專家也可以更高效地開發出全新技術,並快速進行部署。
這一次,EasyDL 和 BML 同時迎來了多項升級。
EasyDL 在資料處理、訓練與評估、模型部署及效能優化方面做了 200 多項自動化機制,並基於近期開發者需求的分析,對場景適配優化和模型評估與診斷做了重點優化。EasyDL 的宗旨成為一個提供自動化建模的平臺,通過對各個核心環節的技術創新,實現端到端全流程的自動化,讓開發者在極簡的使用者體驗下獲得高精度的模型效果。
相對 EasyDL 的零門檻自動化機制,BML 則提供了更多開發模式,讓開發者針對不同的場景靈活把握更多環節。比如 Notebook 建模、視覺化拖拽建模、預置模型開發和 Pipeline 建模等。
「我們將飛槳中優秀的開發套件,例如 ERNIE、PaddleOCR,以及機器學習的演算法以及 AutoDl、VisualDL 等工具元件,結合產業最佳實踐,優選出 67 套模型和網路的組合,預置在我們的平臺裡面,加速開發,大約可以節省 80% 的開發時間。」忻舟說道。
此外,來自成都國鐵等企業的嘉賓也現場分享了基於飛槳實現的產業應用實踐。
在交通運輸領域,成都國鐵已構建起可以全方位、多維度、高頻次實現對高速鐵路供電裝置實施數字化檢測 / 監測的自動化系統。它可以對動車、高鐵實現實時的運營檢查,又被遷移至深圳地鐵的部分線路。利用嵌入式裝置的輕量級算力,初步處理過的資料通過 4G/5G 網路傳輸到伺服器端進行二次檢測。邊雲一體的解決方案,使得地鐵車輛可以在正常運行的時間進行檢測,減少了地鐵檢修人員熬夜巡檢的次數。
15 個億,10 萬家企業,超百萬人才
在去年的 WAVE SUMMIT+2020 深度學習開發者峰會上,百度釋出了飛槳「大航海」啟航計劃,圍繞高校人才培養,未來三年,投入總價值 5 億元的資金與資源,支援全國 500 所高校,重點培訓 5000 位高校 AI 師資,聯合培養 50 萬學子。
這一路線,要貫徹到底。在昨天的活動中,百度宣佈投入更多資金——「大航海」護航計劃,以及「大航海」領航計劃正式啟動。
「大航海」護航計劃指的是百度將在未來三年投入 10 億元資金,從技術賦能、人才賦能、生態賦能全方位支援 10 萬家企業智慧化升級,與產業界一起培養百萬 AI 人才。
「大航海」領航計劃面向核心開發者,百度將與社群開發者一起共建開源生態,攜手探索 AI 前沿技術領域。據瞭解,目前已認證 120 位 PPDE(飛槳開發者技術專家),飛槳城市 / 高校領航團達到 150 個。
去年啟動的「大航海」啟航計劃,如今在階段性成果之上帶來了新發布:《AI 人才產教融合培養方案》,致力於構建全面實用的高校 AI 人才培養方案,包括 AI Studio 教學平臺、免費算力、產業級案例和資料集、專項合作等。
此外,百度還在活動中舉行了「百度獎學金」的頒獎,飛槳和清華大學、吉林大學、鄭州大學三大高校創新創業實驗室現場簽約,宣佈在課程共建、賽事合作、人才、產學結合等方面展開合作,共同推進產學研用一體化發展。
如今,我們正處於以人工智慧為核心驅動力量的第四次工業革命浪潮之中,如何推動人工智慧進入工業大生產階段,成為多方思考的關鍵命題。如何把 AI 技術的價值帶入到企業的生產活動當中,是否存在一條可以參考、可以實踐的路徑?
百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜認為,這條路可以分為三個階段,第一階段是企業中有少數先行人員嘗試引入 AI,稱之為 AI 先行者探路階段;當進行了驗證後,會從個人實踐轉變成建設團隊來學習和應用 AI,稱之為 AI 工作坊應用階段;當企業逐漸進行大量的 AI 應用,幾百、幾千人一起工作,多人多工協同生產,就進入了 AI 工業大生產階段,更長期看,還會實現社會化協同生產。
如今人工智慧技術在各行業不斷滲透,面對不同的應用場景,開發者們提出了更多複雜的需求,持續降低門檻是 AI 工具重要的發展方向。
在解決如何讓 AI 變得更簡單這個問題上,飛槳從未停止進化:從核心框架、模型庫,再到開發套件和工具元件、AI開發平臺,飛槳在技術上不斷突破,在功能上持續豐富,在服務上愈加完善,支撐起了越來越多創新和產業智慧化的發展。
百度飛槳將在 AI 的工業大生產過程中成為至關重要的一環。
相關文章
经过 Intel <em>CPU</em> 环境上实测,该引擎不仅支持万亿边图模型训练,也能够很好地支持线性扩展。 据介绍,这项技术已在网易云音乐的主播推荐场景上进行了应用:大规模图检索引擎和飞桨分布式训练技术,成功支撑了语音
2021-05-21 22:31:41
含骁龙870处理器、LPDDR5内存、UFS3.1闪存),跑分高达742444分,自带「内存融合」技术,支持扩展部分存储转为运行内存,让8GB等效11GB运存,用上了144Hz竞速屏,拥有超级液冷散热系统,全方位覆盖发热源头,<em>CPU</em>温度最高可降
2021-05-21 22:31:37
曾经端坐霸主地位的微软IE<em>浏览器</em>在走过20多年的岁月后,最终与互联网时代早期被淘汰的品牌一样,即将退出历史。 当地时间5月19日,微软公司宣布,从明年6月15日起,大多数版本的Windows 10系统将不再支持IE<em>
2021-05-21 22:31:26
这是我持续将 Android 作为主力机使用三年之后,第一次回归使用 <em>iPhone</em> 。作为可能是全网最后一个拿到 <em>iPhone</em> 12 Pro Max 的数码博主(不是),在体验了近两个月的时间后,一起来看看我对这款让人又爱
2021-05-21 22:31:10
文丨太平洋数码一部<em>iPhone</em>到底可以做到几年不卡顿?让这些用户仅仅因为一个不卡顿就为之趋之若鹜?有人说2年,亦有人说3年,众说纷纭,但这个疑问似乎永远没有答案!因为现在依然有人在使用<em>iPhone</em>4,<em>iPhone<
2021-05-21 22:30:57
所以我跟他们说,你可以用<em>Python</em>、java、MATLAB等等任何你熟悉的程序语言,只要能实现计算目标就是好的。”作为一门通识选修课,《算法与程序的奥秘》被评为2020年国家级一流本科课程、2019年省级精品在线课程,这
2021-05-21 22:30:37