首頁 > 科技

EDIT數字化模型和企業演算法架構系列,如何搭建企業級演算法架構

2021-08-31 03:03:47

企業架構概覽

01、什麼是企業架構

企業架構並不是一個新的概念,那企業架構是做什麼的呢?企業架構是對真實世界企業的業務流程和IT設施的抽象描述,包括企業戰略、組織、職能、業務流程、IT系統等。對於資料領域來講企業抽象是流程和資訊流。在做模型化時要分離出哪些部分呢?比如流程描述把企業看成價值鏈,所謂價值鏈就是把原材料開始經過一系列的加工,最終實現為客戶提供有價值的產品。

我們做個類比,一個城市需要做整體規劃,也會做功能區規劃,最終是建築物和工程局部設計。同理,企業做IT也需要一個架構,企業架構是由很多模組組成,比如財務、供應鏈、生產系統等,不同模組下也有很多功能,也需要細緻的設計。

肯定了企業要做架構,我們來看一下企業架構的歷史,資訊化架構發展歷史是非常久遠的,上世紀80年代末開始,直到2011年左右,企業架構被廣泛接受。

02、Togaf的 ADM方法論

下面重點介紹下Togaf 的ADM方法論,即所謂的「一備一中心和八個階段」,主要表現在以下四個方面:

1.預備階段:達成要建設企業架構的共識,建立架構的保障機制,比如企業架構委員會。

2.設計階段:包含業務架構、資訊系統架構、技術架構,其中資訊系統架構包含資料和應用。不同的業務形態,對架構的要求是不同的。比如非智慧製造的生產型企業的資料應用需求主要是經營業績分析,採用傳統數倉架構即可;而智慧客戶運營階段的服務型企業,資料應用需求主要是基於行為資料為基礎的資料驅動的操作層面的業務決策,採用Hadoop架構更節約成本。

3.遷移規劃階段。架構設計完後,制定實施計劃,進行架構的執行和遷移規劃。

4.架構治理階段。PMO對項目實施過程進行治理,並對業務或技術變更進行控制。

下面我們來細化一下架構設計方面的內容。

業務架構:主要由業務分析師來完成,包括靜態的企業戰略方點陣圖、企業組織結構圖和企業職能分解圖,以及動態的企業業務軌跡圖和業務流程圖。根據業務流程圖可以知道應用系統如何建設,這裡面需要的資料是資料架構所需要涉及的。

應用架構:表示的是應用系統與業務系統的對映關係。

資料架構:主要包括資料模型、資料實體-業務功能矩陣、資料實體-應用系統矩陣。企業的資料模型有利於更深入地瞭解企業資料,便於梳理企業資料資產,便於企業貫徹資料標準。資料實體-業務功能矩陣中可以確認資料由哪些部門負責和使用,有利於許可權分配。資料實體-應用系統矩陣,梳理某一資料在不同系統中分佈情況。

技術架構:主要包括環境與位置圖、網路計算圖、平臺分解圖等。

03、TOGAF構架

主要分為6個部分,靜態內容方法論,提供功能模板、參考模型、在架構開發時在不同的階段進行架構開發指引和技術、企業連續系列參考和架構能力框架。

企業系統架構從BI到AI的轉變

01、成為智慧企業的必經之路

在我國的大部分人的概念中,BI最大的特點就是對經營業績、經營成果進行分析。BI宏觀業務分析,基於報表和視覺化的分析。AI是微觀業務分析,建立起對微觀個體的洞察以及未來行為的預測。面向BI的資料應用要求資料在資料倉庫彙總和標準化即可,因此源系統可以是「豎井」,即資料模型和資料標準在源系統可以不統一。AI最終服務的不是業務報表,而是建模完成後最終返回到業務系統,在一些流程節點當中需要用到演算法模型的輸出,在業務系統中落地。業務系統中的標準和分析系統中的標準是一體化打通的,因此對IT系統是更為嚴格的要求。既然要做轉變,我們需要做什麼事情呢?我們可以從四個方面考慮,分為資料戰略、資料架構、演算法架構、資料平臺。

1. 資料戰略:將資料素養納入組織願景、戰略和核心流程,制定企業級的資料應用規劃。

2. 資料架構:根據資料應用的需求,以領域驅動設計為方法論,構建企業級的資料模型及其他元件。企業的資料模型視應用的方向不同,不限於傳統的主題模型和維度模型,還有可能是複雜網路模型等等。其中資料模型會分層,面向應用的上層資料主要服務於經營分析、客戶洞察、風險識別等;底層的資料更貼近源系統。

3. 演算法架構:根據資料應用的需求,使用資料探勘的方法論,構建企業級的演算法模型及其元件。企業的演算法模型是應用的方向不同,分為統計模型、機器學習模型、自優化模型等。一般分為兩層結構,上層是演算法實現層,下層是特徵工程層。我們主要講一下服務行業的演算法架構,主要包括決策類預測、識別類模型和業務優化分析。演算法模型需要從視角、觀點、層次三個方面進行劃分,即主體-客體視角、成本-收益觀點、微觀-宏觀層次。對於決策類模型,屬於客體視角、成本-收益可比的微觀層次模型。識別類模型,屬於主體視角、成本-收益不可比的微觀層次模型。業務優化分析,屬於宏觀層次模型。

4. 資料和演算法平臺:為了支援不同的資料架構和演算法架構,則需要建立不同的資料和演算法平臺。比如傳統服務於經營分析的報表是小資料量的,使用單機關係型資料庫架構即可,不需要演算法平臺;而服務於違規交易識別的複雜網路的資料模型,需要進行深度的特徵學習,因此資料平臺中需要圖資料庫模組,而演算法平臺中需要支援並行深度學習。

02、如何能做到持續智慧

傳統企業由於組織隔離,導致交付時間長、難以支援創新。如果希望提高創新速度、敏捷開發、縮短交付時間,則需要組建資料科學家、開發人員和運營人員攜手合作的混合團隊。

03、持續智慧的能力建設

這是ThoughtWorks所倡導的持續智慧能力,主要分為:

1. 識別變化,採用程式化的方式自動識別外部環境的改變,比如在信貸風控中,實時監控資料漂移和資料異常,評估准入規則和風控模型的適用性。

2. 敏捷研究,提供建模人員敏捷工作環境,縮短建模中佔時80%的低效特徵構建和價值驗證工作。

3. 智慧建模,在演算法模型需要調整時,基於既有的標籤和畫像特徵,快速迭代演算法模型。

4. 智慧評估,模型上線後,配置好迴流資料,可以對模型進行實時評估。

5. 敏捷測試,對模型的穩健性進行快速的全方位測試,縮短演算法模型開發和演算法模型上線的時間,避免演算法模型崩潰導致的業務中斷。

舉個例子,疫情期間很多傳統模型無法使用,針對風險變化快速建模的能力顯得尤為重要。因為客群發生很大的漂移,需要公司快速建模的能力,尤其是針對敏捷研究,可以在短時間內快速上線。

DataPipline實現標籤提取,特徵工程,樣本選取。打通生產環境和分析環境的資料標準,實現企業級的資料標準版本管理和演算法模型版本管理。對於分析建模人員而言,實現入模特徵的所用即所得,避免模型上線時重新編輯特徵。

DataOps敏捷研究智慧建模,可以實現資料與演算法的融合和管理。建立起端到端的資料演算法模型開發團隊,避免開發語言轉換、資料轉換等無效率環節。

04、ThoughtWorks數字化願景

為了實現構建智慧、敏捷、場景驅動的美好願望,需要實現深入客戶洞察、縮短產品上市時間、創造數字化收益等戰略子目標。資料資產和演算法能力是支援各個戰略子目標的基礎。而ThoughtWorks認為支援能力建設的五個數字化基礎元件是必不可少的,分別是低摩擦運營模式、企業級平臺戰略、使用者體驗設計和數字化產品能力、智慧驅動的決策機制、工程師文化和持續交付的思維。

資料資管出品

作者:研究猿


IT145.com E-mail:sddin#qq.com