首頁 > 軟體

科技雲報道:企業級機器學習 會成為下一個萬億級的新市場嗎?

2021-05-24 18:30:29

科技雲報道原創。

在哈利·波特的魔法世界中,分院帽是一頂磨得很舊,打著補丁,而且髒得要命的尖頂巫師。不過可別小看它,它可是充滿智慧、會思想的魔法帽,能看出學生具備何種才能,從而將學生分到適合的學院。

如果現實世界存在分院帽的話,那麼它應該類似於機器學習的應用程式,可以根據複雜的資料集自主地做出決策。

如今,機器學習正在推動數萬億規模的全球產業,市場調查機構Grand View Research最近釋出的《機器學習市場報告2025》預計,到2025年,全球機器學習市場規模將達到967億美元。2019年-2025年的年複合增長率為43.8%,其中金融服務,零售和汽車領域處於領先地位。如果機器學習有望創造更大規模的市場價值,那麼問題來了:這些價值將在哪裡產生呢?

從初創公司到科技巨頭 機器學習深度嵌入垂直場景

早在50年前,機器學習的概念就出現了。只是直到今天,隨著雲端計算的出現,人工智慧和機器學習才進入千千萬萬的企業,不再侷限於少數科技巨頭和硬核的研究機構。雲端計算時代的到來,掃清了企業應用人工智慧和機器學習的障礙,而即便最保守的企業在當今都無法忽視人工智慧的作用。根據IDC的資料,當前40%的企業數字化轉型項目都會運用人工智慧。

Facebook、Amazon、Apple、Netflix、Google等科技巨頭在機器學習方面的創新廣為人知,從新聞推送到推薦引擎不一而足。其實,這些科技巨頭在機器學習領域早已佈局。比如Amazon就在這個領域已經投入了20多年,其線上零售的個性化產品推薦、機器人倉儲中心、無人機送貨、Alexa語音助理、Amazon GO無人值守超市,都依靠人工智慧和機器學習技術的支援。

但就更多場景而言,人工智慧的應用仍然較為侷限。目前,制約人工智慧廣泛應用的因素有三個方面:一是掌握人工智慧專業知識的人才不足;二是構建和擴展人工智慧的技術產品有難度;三是在生產經營中部署人工智慧應用費時且成本高。最終導致缺乏低成本、易使用、可擴展的人工智慧產品和服務。就機器學習而言,多數機器學習方法的效能在很大程度上依賴於過量的模型設計策略,這導致新手難以較快地掌握和應用機器學習。

對此,Amazon SageMaker的出現幫助企業解決了這些挑戰。作為一個工具集,Amazon SageMaker提供了用於機器學習的所有元件,比如彈性筆記本、實驗管理、自動模型創建、偵錯與分析,以及模型概念漂移檢測等多元化工具和功能,貫穿整個機器學習的工作流程,從而以更少的努力、更低的成本、更快地將機器學習模型投入生產。

2021年5月11日,Amazon SageMaker以落地中國區域一週年為契機,進一步在中國區域落地多項人工智慧與機器學習的新服務和功能,「希望通過將更多服務落地到中國區域,並堅持‘授人以魚不如授人以漁’,甚至更進一步‘扶上馬,送一程’的方式,幫助客戶更快應用機器學習技術,把機器學習的能力交到每一位構建者手中,加速人工智慧和機器學習的普惠。」亞馬遜雲科技大中華區雲服務產品管理總經理顧凡表示。

亞馬遜雲科技大中華區雲服務產品管理總經理顧凡

除了科技巨頭,全球一些初創型的公司也都在將機器學習與垂直領域相結合,最好的機器學習公司都有著清晰的垂直重點。他們甚至不會將自己定義為機器學習公司。比如在工業和物流領域,Covariant是一家結合了強化學習和神經網路的初創公司,該公司讓機器人能夠管理大型倉庫設施中的物體;Interos應用機器學習技術評估全球供應鏈網路,幫助企業圍繞供應商管理、業務連續性和風險做出關鍵決策。

在醫療領域,Athelas已將機器學習應用於免疫監測,通過收集病人白血球數量的資料幫助他們優化藥物攝入。Curai利用機器學習技術來提高醫生推薦的效率和質量,讓他們可以把更多的時間花在治療患者的工作上。Zebra和AIdoc通過訓練資料集來更快地確定醫療狀況,從而提高了放射科醫生的工作能力。

然而,大規模部署機器學習模型也可能為企業帶來諸多挑戰。例如,規模化的部署需要實現「資料-模型-成果」這一複雜且反覆的端到端工作流程。而且,企業也需要提高自身治理能力,合理應對模型部署可能帶給終端客戶服務的影響(如隱私問題),並著眼於資料應用的合規性和安全性,以及該模型是否能轉化成為生產級模型等。

前途光明但道路曲折 機器學習模型仍面臨四大挑戰

據國外知名科技媒體VentureBeat報道,大約90%的機器學習模型從未投入生產。換句話說,機器學習只有10%能夠真正產出對公司有用的東西。儘管大家都相信,人工智慧將成為下一次科技革命的中心,但人工智慧的採用和部署尚未獲得長足的發展。目前來看,機器學習要想大規模應用仍然還面臨比較大的挑戰。

挑戰一:資料獲取和訪問難度大

許多公司的IT系統都是高度筒倉化的,這意味著每個部門都有自己收集資料的方式、首選格式、儲存位置以及安全和隱私偏好。另一方面,機器學習經常需要來自多個部門的資料,筒倉化模式增加了清理和處理這些資料的難度。但在今天這個技術飛速變革的時代,企業將需要加快步伐,在整個過程中建立起統一的資料結構。

挑戰二:IT、資料科學和工程脫節

如果公司的目標是減少「資料筒倉」,就意味著各部門需要更多地相互溝通,調整各自的目標。但在許多公司中,IT部門和資料部門之間存在著根本性的分歧。IT傾向於優先考慮讓事情正常運轉並保持穩定,而資料專家則更喜歡進行一些嘗試性創造,這就會導致一些不穩定情況發生,使雙方的溝通產生困難。此外,對於資料專家來說,與IT工程師的溝通也是一道障礙,因為IT工程師有時候可能無法瞭解資料專家所設想的所有細節,或者可能會由於溝通錯誤而改變實現方式。

挑戰三:重複性工作多 應用擴展較難

機器學習模型可能在小規模資料樣本的環境中工作得很好,但這並不意味著它在任何地方都可以工作得很好。首先,可能沒有處理更大資料集的硬體或雲端儲存空間可供使用。此外,在規模很大時,機器學習模型的模組並不總是像規模較小時那麼有效。另外,由於公司的筒倉結構,資料獲取可能也比較困難,這也是在組織之間統一資料結構、鼓勵不同部門之間進行交流的另一個原因。

在部署機器學習模型的漫長道路上,超過25%的企業都存在重複工作。例如,軟體工程師可能會按資料專家的說法進行實現,後者可能也會自己做一些工作。這不僅浪費時間和資源,而且在遇到任何錯誤時就不知道應該向誰求助,這會導致額外的混亂。如果資料專家能夠實現他們的模型,但對於職責如何劃分、如何明確分工,他們應該與IT工程師溝通清楚,這樣就可以節省時間和資源。

挑戰四:不能跨語言且缺少框架支援

由於機器學習模型仍處於起步階段,不同的語言和框架仍有相當大的差距。有些模型開始時使用的是Python語言開始,中間切換到R語言,最後用的是Julia語言。有的則相反,或者完全使用其他語言。由於每種語言都有自己獨特的庫和依賴項,項目很快就變得很難跟蹤。此外,有些模型可能會使用Docker和Kubernetes進行容器化,並部署特定的API,其他模型則不會,這樣的例子不勝列舉。為了彌補這種不足,像TFX、Mlflow和Kubeflow這樣的工具出現了。但這些工具仍處於起步階段,但到目前為止,這方面的專業人才還很少。

事實上,模仿人類的思維並不是機器學習的唯一目標,相反機器學習可以通過對大型資料集進行詳盡的分析來提高人類的智慧水平,就像搜尋引擎能夠通過組織Web來擴展人類的知識一樣。機器學習還可以彙總多個數據集的資訊,探索模式,併為一些問題提出新的解決方案,從而在醫療、商業、交通等多個領域為人類提供新型服務。

機器學習技術必將推動企業機構的變革,目前許多機器學習應用已經為企業機構帶來了實際的業務成果。機器學習可以實現流程自動化、發現新洞察,從而幫助企業創造新產品或增強現有產品及服務,從而提供更好的客戶體驗。

但企業機構要想真正將機器學習應用到實際業務場景之中,還需完成全方位運營轉型,具備建立和開發機器學習模型以及部署和運營整個模型的能力,從而全方位發掘機器學習的潛力。目前為止,大型企業孵化了最先進的技術,但是真正的希望存在於下一波機器學習應用程式和工具之中,將圍繞機器智慧將哈利·波特式的幻想轉化為有形的社會價值。

【關於科技雲報道】

專注於原創的企業級內容行家——科技雲報道。成立於2015年,是前沿企業級IT領域Top10媒體。獲工信部權威認可,可信雲、全球雲端計算大會官方指定傳播媒體之一。深入原創報道雲端計算、大資料、人工智慧、區塊鏈等領域。


IT145.com E-mail:sddin#qq.com