演算法全覆蓋，還能玩星際爭霸，開源決策智慧平臺OpenDILab面世

2021-07-13 03:04:24

從強化學習到MCTS，從星際爭霸AI到自動駕駛，上海人工智慧實驗室開源決策智慧平臺OpenDILab，自帶最優參數，一鍵上手SOTA決策AI演算法，AI開發者們趕快試試這個新開源的國產決策AI平臺OpenDILab。

撰文 | 機器之心編輯部

開源是推動人工智慧技術進步的重要力量。

近年來，AI開發者們也一直在享受著開源帶來的技術紅利：前沿演算法、資料、AI框架、甚至算力。這些開源資源為開發者們帶來了極大的便利，而反過來，通過匯聚開發者們的力量，這些開源項目也得到了極大的發展。

在意識到開源的力量之後，國內高校、企業也紛紛加入到開源社群。

昨日，在2021世界人工智慧大會上，上海人工智慧實驗室就做出了開源新動作：開源決策智慧平臺OpenDILab。

2021WAIC大會科學前沿全體會議上，上海人工智慧實驗室青年科學家劉宇博士釋出OpenDILab開源決策AI平臺

據介紹，它是首個覆蓋最全學術界演算法和工業級規模的決策AI平臺。也就是說，OpenDILab不僅實現了最全面的演算法覆蓋，例如強化學習，還提供了豐富的工業級應用環境，可應用於自動駕駛、遊戲競技等領域。

如今，OpenDILab已經被放到Github上。就讓我們對此項目一探究竟。

GitHub：https://github.com/opendilab/

一

為什麼要開源OpenDILab？

首先，為什麼要做這樣一個平臺？

我們知道，過去10年，感知AI已經讓機器具備了從「看清」到「看懂」的能力，例如，給定一張貓的圖片，機器能夠判別出這是一隻貓。

然而相較於這種感知層面的人工智慧，決策AI問題是一項更加複雜的任務，它需要進行推理、決策、規劃等。

因此，決策AI是下一代AI的重要方向已經是業界共識。

目前決策AI主要存在兩大難題：

一是決策類問題因涉及多模態資料空間、跨尺度計算邏輯、多領域演算法融合，這些問題很難標準化。與感知類AI單純的視覺資訊不同，決策類AI通常需要同時處理諸如影象、語音、結構化資料等多種複雜模態的資料類型。此外，單機單卡與多機多卡甚至跨叢集計算的決策AI計算邏輯也完全不同。不同任務間的最優演算法配置也差別較大。

二是作為一個前沿領域，決策AI的問題定義和研究視角在學術界和工業界之間存在巨大差距，諸多新奇的學術演算法缺少環境和計算pipeline上的通用性，很多情況下只能侷限於toy model級別的實驗環境，無法轉化到真正的工業場景上去，而從工業界本身來看，如何將實際問題抽象為適合現有的決策AI演算法解決的環境，仍是阻礙決策AI技術應用實踐的核心門檻。

針對決策AI的技術難題，以及產學研協同創新過程中的困難，上海人工智慧實驗室開源了OpenDILab平臺。它首次將產業應用中對於訓練系統、環境介面、演算法設計的需求與學術界進行了有效連線。

作為一套完備的決策 AI 訓練與組織框架，OpenDILab 平臺自頂而下覆蓋了應用層、演算法層、訓練層和支援層，適配了從單機到伺服器叢集規模的全尺度高效訓練pipeline。

OpenDILab平臺概覽。

· 應用層：涵蓋多種決策場景，支援多模態資料空間的表示和變換，並提供大量效能優異的運算元，助力AI做出最優決策；

· 演算法層：提供多種常用模組化元件，可在此基礎上構建不同的演算法模型，支援使用者多維度的擴展和定製，完成決策AI演算法的大統一；

· 訓練層：內建多種類型的執行計算圖，並深度優化了相應資料吞吐和資源利用率，可為小到學術研究，大到工業級應用的多種規模問題提供支援；

· 支援層：嘗試了CUDA異構計算和決策AI演算法的結合，而在資源排程方面，OpenDILab可依據演算法和資源，動態管理整個訓練過程，提供異常自動化維護等多種微服務。作為一個系統工程，OpenDILab為AI+SYSTEM帶來了全新形態。

二

一鍵實現決策演算法與應用

OpenDILab (beta) 開源後，研究者和開發者們可以訪問github，獲取最強最全的決策AI演算法Zoo，檢視自動駕駛、遊戲AI等工業問題在OpenDILab平臺加持下的具體實踐，以及諸多決策AI系統設計和優化的相關元件。

在OpenDILab（beta）的開源版本里，我們可以看到它已經開放了四個核心程式碼庫，最底層的DI-engine，致力於解決決策AI環境算力標準化的訓練問題；中層的演算法抽象層DI-zoo，提供了目前最全最強的決策AI演算法集合。還有頂部應用生態層，開源了基於 DI-engine的自動駕駛決策平臺DI-drive和麵向策略遊戲《星際爭霸II》的大規模分散式訓練平臺DI-star。

DI-engine是一個通用的決策智慧引擎，不僅支援 DQN、PPO、SAC 等大多數基礎的深度強化學習（DRL）演算法，而且支援諸多特定研究領域的演算法，如多智慧體RL中的QMIX、逆向RL中的GAIL 和探索和稀疏獎勵問題中的HER，RND等等。對於每種演算法，可以從多種環境和多種訓練pipeline的角度探索決策AI技術的不同形態。

DI-zoo則可以為開發者提供當前最全、最強的決策AI演算法集，擁有包括強化學習、MARL、MCTS等20多種跨領域決策AI演算法，支援10多個決策AI環境，並原生集成了大量研究員的演算法調優經驗。這為開發者省去了調參困擾，方便在統一平臺對比效能。

而說到應用層的兩個程式碼庫：DI-star、DI-drive，可以說是研究決策AI最合適的場景。

從國際象棋、圍棋到麻將、鬥地主，各類遊戲一直都是AI挑戰的物件，而這些複雜的遊戲也成為了研究AI技術的絕佳場景。星際爭霸2作為目前難度最高的遊戲之一，為檢驗人工智慧決策能力提供了合適的舞臺。

基於DI-engine的底層支援和大規模分散式深度強化學習訓練技術，DI-star打造出了人類大師分段水平星際爭霸2智慧體，並把完整的技術實現細節和與人機對戰測試（僅需Windows系統+1060以上顯示卡）開放給所有人，希望藉此促進通用人工智慧的研究。

同時OpenDILab團隊也希望藉助DI-star，匯聚更多社群開發者的力量優化大規模深度強化學習訓練效率等方面的問題，將AlphaStar級別的智慧體設計簡化到原來的1/20～1/30。

自動駕駛同樣也是當前人工智慧的熱門研究方向。決策、規劃與控制是自動駕駛任務的大腦，被各大公司視作高度保密技術。DI-drive是自動駕駛領域第一個開源的，人人可以參與的研究平臺。

DI-drive支援各種模仿學強化學習等決策演算法，支援多模態類型的輸入輸出，支援高度定製的視覺化模組，為自動駕駛和決策 AI 搭建了至關重要的橋樑。DI-drive 還自主研發設計了 Casezoo 這一從實車採集資料轉化而成的測試場景，在及貼近真實的駕駛環境中訓練和測試決策模型，促進自動駕駛領域模擬研究在實車環境中的推廣和應用。

未來，OpenDILab還將提供諸如AutoML、信控等更多的工業級生態應用，加速下一代人工智慧的重大技術突破和創新應用的落地。

而對我們開發者來說，一個開源平臺是否有意義在於能為我們帶來哪些方面的增益，OpenDILab平臺的開源也不例外。

無論你是想入門決策AI的技術萌新，還是志在探索演算法真理的研究員，又或是想應用決策AI技術到各類實際應用中的工程師，都可以通過OpenDILab平臺獲得在演算法，系統，工程等方面的經驗和工具支援。而現今開源的OpenDILab (beta) ，也正在期待更多的開發者使用、反饋並逐漸完善它，整個社群一起共同構建最強最好用的決策AI平臺。

Exploration and Exploitation，就從現在開始！

演算法全覆蓋，還能玩星際爭霸，開源決策智慧平臺OpenDILab面世

熱門文章