99.99%準確率！AI資料訓練工具No.1來自中國

2021-06-08 09:37:17

蕭簫發自凹非寺量子位報道 | 公眾號 QbitAI

這年頭，真是什麼樣的資料集都有了。

IBM的5億行程式碼（bug）資料集、清華&阿里的460萬少樣本NER資料集、還有假貨資料集、「黑話」資料集、小黃圖資料集……咳咳。

沒錯，相比遭遇瓶頸的演算法，資料現在成了AI行業的「香餑餑」——

他們發現，當年一個ImageNet走天下，微調AI模型參數就能取得SOTA的時代已經過去。

來自谷歌AI的最新研究表明，要想在細分領域取得更好的模型效果，精準優質的資料十分重要，它在極大程度上決定了AI模型的效能。

例如，谷歌曾經做過一款流感趨勢預測模型，但由於資料質量太差，預測結果甚至偏離了流感峰值的140%。

連斯坦福大學副教授、Coursera聯合創始人吳恩達，也強調資料質量對於AI的重要性：

80%的資料+20%的模型=更好的AI。

真正「有用」的AI模型，離不開資料

一直以來，資料質量對於AI模型的影響程度都在被低估。

隨著大模型如BERT、Alphafold2、GPT-3、DALL·E逐漸成為人工智慧產業的潮流，更多的資料也在被「投喂」進各種AI模型中。

資料質量的問題，也因此更加突出。

來自谷歌、蘋果、斯坦福、哈佛等七家頂級機構的一項研究表明，越大的語言模型，隱私洩露風險就越高。

他們用OpenAI的GPT-3模型做了實驗，發現只需要一串「暗號」，就能讓它報出某個人的姓名、電話、住址等隱私資訊。

由於AI模型不能完全「消化」資料，只會把訓練資料中的一部分原樣展示出來，導致模型越大，對資料的記憶能力就越強，洩露隱私、輸出虛假資訊片段的可能性就越高。

不少大型AI公司，已經開始從根本上解決資料質量問題。

谷歌就已經開始研發資料處理演算法，其中的TEKGEN模型，能將資料質量靠譜的知識圖譜轉換成文字資料庫，再用於AI模型的訓練。

而IBM、清華大學、阿里達摩院等國內外研究機構，也開始建立類似程式碼bug、假貨、少樣本NER一樣的細分領域資料集。

但這些做法都需要足夠的人力和精力，相比之下，外包/眾包可能是更多AI企業的選擇。然而在這種情況下，又可能獲得不合要求、甚至良莠不齊的資料，質量難以保障。

現在，AI訓練資料處理行業中迸現出一匹黑馬——

一家對AI演算法落地有所研究的AI訓練資料服務商，自主研發了一個名為「雲測資料標註平臺4.0」的資料處理平臺，直接將資料標註的最高準確率提升到了99.99%。

據云測資料表示，這一平臺使得企業服務成本平均降低了60%以上，至於研發AI項目的效率，則提升了2倍不止。

這樣的標註效率，並非有口無據。在4.0正式版上線前，「雲測資料標註平臺」一直是雲測資料內部自用的AI訓練資料處理平臺。

正是憑藉著這一平臺，結合其高精準資料標註能力和場景化訓練資料方案等實力，雲測資料連續兩年在資料標註公司排行榜上奪得TOP 1的位置。

他們的平臺，憑什麼拿下行業TOP 1？

憑的是三大技術特點：穩、全、快。

首先，對於目前成熟的標註場景，保證AI輔助標註穩定不出錯。

對於智慧資料標註技術來說，目前比較成熟的場景包括OCR（光學字元識別）、語音切割等任務。

以OCR為例，識別準確率是基本要求，更重要的是文字識別的效率：

至於ASR（語音識別）也是基本操作：

當然，如果需要的是TTS（智慧轉寫）方面的資料，將一段話迅速轉成拼音也非常easy：

其次，平臺的效率不僅體現在識別速度和準確率上。

「雲測資料標註平臺4.0」另一個重要的特性，體現在它的場景全面性上——既能做2D邊界框這種最簡單的標註，也能做業內公認非常難的多端資料融合。

從影象、文字、語音、音視訊……只有你想不到，沒有平臺做不到的資料類型。

先以進階一點的NLP實體抽取為例。

這項技術的難點在於，必須迅速找出一段長文字中最有用的關鍵資訊，過程中不僅涉及大量學術名詞，而且分類的合理性也必須考慮。

在這種情況下，「雲測資料標註平臺4.0」對於醫療專業的學術名詞也能輕鬆處理，且能準確地按照資料要求進行分類：

更重要的是，這一平臺也能做行業公認較難的一項技術——多端資料融合。

這項技術包括多模態融合和多感測器融合兩種類型，每種類型對於融合演算法的要求都非常高。

以這項技術目前應用最廣泛的自動駕駛領域來看，多感測器融合不僅要將多個感測器如鐳射雷達的資料進行融合，使得系統獲取比單一感測器資料更多的資訊，還得確保這一過程的準確率。

例如，一個簡單的框就能將車輛的3D鐳射點雲資料自動識別出來，更重要的是還能做智慧貼合：

除此之外，在這些資料中，還涉及語音、影象、文字等多種模態資訊的融合，即使只是影象資訊，也涉及2D和3D資料的融合。

而在實現了感測器和多模態融合後，也還需要面臨由於感測器硬體更迭，導致資料類型更新的問題，因此在工程實現時，可擴展性也是考慮因素之一。

最後，也是最重要的，就是對資料標註效率的提升了。

不同的AI模型，所用的資料類型並不一樣，因此在獲取AI訓練資料時，也必須相應地調整標註方式，然而有些方法由於標註效率很低，從而導致成本的提升。

以影象分割為例，這項技術目前主流的標註方法有兩種：多邊形分割、畫素級標註。

其中，多邊形分割是一個成本巨大的標註方式，操作者必須像用PS裡的「鋼筆」一樣，一點點地描出目標物體的邊緣形狀，將它與背景分割開來。

如果採用智慧多邊形分割的話，往往會出現細節卻需要反覆調整的情況，甚至比人工描邊還慢（以某開源平臺的智慧標註效果為例）：

相比之下，目前比較先進的標註方法畫素級標註，以2D邊界框的簡單操作就能迅速標註出物體的形狀，準確率比多邊形分割要高得多：

然而，並非所有AI影象分割模型都採用畫素級標註的資料訓練。

這就導致在AI模型要求多邊形分割資料時，會出現標註成本極高的情況。

為此，「雲測資料標註平臺4.0」背後的程式設計師們，對多邊形分割進行了優化：以畫素級標註的簡單操作，也能標註出多邊形分割的效果，極大地加快了不同類型資料標註的效率。

或許有的人還對資料標註行業有所誤讀。但「雲測資料標註平臺」已經用實力證明，做出精準高質量的資料，同樣是一個技術活。

現在，這一平臺的4.0正式版，已經對外商業化使用。

雲測資料，行業中的「資料科學家」

自人工智慧爆發以來，「雲測資料標註平臺」已有近5年的沉澱。

2017年，正值AI技術爆發一年有餘，各行業對於資料處理的需求只增不減，隨著AI模型變得越來越多樣化，更多元的資料需求也在被提出。

雲測資料能走到如今行業資料質量TOP 1的位置，客戶涉及智慧駕駛、智慧金融、智慧城市到智慧家居等多個行業，涵蓋計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術領域，所做的遠不止把控AI訓練資料的準確率。

資料標註，只是控制AI訓練資料質量中的一環。

事實上，從AI企業提出對應需求的那一刻起，雲測資料就開始對質量進行把控了。

接到需求後，雲測資料採集團隊需要根據客戶所用的AI演算法模型，對所採集的資料進行評估梳理，確定貼合模型訓練的資料採集需求，通過行業首創的資料場景實驗室進行相應的採集。

同時，在資料採集階段，雲測資料團隊就會先對採集的資料進行稽核清洗。

這一步非常關鍵，許多未經稽核清洗就用作標註的資料，可能包含有不適合用作模型訓練的隱私資料、或低質量資料。

對於隱私資料，需要適當對資料進行脫敏化處理；至於低質量資料，則需要對資料進行清洗，確保這批資料適合標註。

至於資料標註和質檢的過程也堪稱嚴苛，雲測資料設計了從創建任務、分配任務、標註流轉、到質檢/抽檢環節和最後的驗收等更完善的管理流程，每個環節有相應專業人員來把控資料標註的質量和時間節點，得以在保證質量的前提現下可以真正提高效率。

這意味著，即使AI企業只提供一個模糊需求，雲測資料也能通過從採集到標註的一整套流程，將能夠直接使用的AI訓練資料呈現給企業。

因此，要想從根本上控制資料質量，即使是資料行業也得掌握AI演算法工程師的技術：

只有理解AI演算法的原理，才能明確最適合模型的資料條件和類型，最終交付合適的AI訓練資料。

這幾年時間裡，雲測資料其實遇見過不少以「一篇AI論文」為需求的資料處理客戶。

尤其是在AI技術爆發初期，許多企業對AI演算法有一定了解，但並不清楚應該怎麼處理資料，也沒有任何可以用於AI模型訓練的資料資源。

而且隨著自動駕駛、金融、醫療等專業領域開始用上更復雜的AI演算法，資料質量開始成為「重點關注物件」，任何一個錯誤的資料，都可能降低模型的準確率。

日新月異的AI演算法、和更加複雜的場景，讓一路走過來的雲測資料，磨鍊出了如今的「雲測資料標註平臺4.0」，不僅資料類型全面，而且資料質量高。

接下來，他們還希望能將這個平臺進一步智慧化，以迎接接下來的行業挑戰。

雲測資料總經理賈宇航表示，這或許最終會演變成一場「質量與效率上的博弈」：

最近，自動駕駛行業很火，我們需要處理的資料也呈現出一個數量級的增長。例如，去年一家企業只需要採集10輛RoboTaxi的資料，今年就增加到了百千輛RoboTaxi。但我們希望，在保證資料質量不變的情況下，資料處理成本不會呈線性增長，而是利用智慧化平臺，讓資料處理的成本更合理、效率更高。

雲測資料的真實身份，其實是AI訓練資料行業中的「資料科學家」：

他們的目標，是讓AI行業能真正實現資料驅動。

99.99%準確率！AI資料訓練工具No.1來自中國

熱門文章