首頁 > 科技

比肩千億大模型,周明團隊提出中文語言模型孟子重新整理CLUE紀錄

2021-07-14 04:10:05

機器之心釋出

機器之心編輯部

周明團隊提出孟子預訓練模型,重新整理 CLUE 榜單。

近日,瀾舟科技 - 創新工場團隊與上海交通大學、北京理工大學等單位聯合研發的中文語言模型—孟子輕量型模型,超越騰訊、搜狗等公司,在中文語言理解評測 CLUE 榜單上登頂第一,重新整理業界記錄。

作為中文語言理解領域最具權威性的測評基準之一,CLUE 涵蓋文字相似度、分類、自然語言推理、閱讀理解等共 10 項語義分析和理解類子任務。近段時間,來自騰訊、搜狗、華為、阿里達摩院的團隊紛紛以大模型重新整理此榜單。

據瞭解,瀾舟科技是創新工場孵化的一家認知智慧公司,公司創始人周明博士是創新工場首席科學家,他是世界頂級的 AI 科學家,自然語言處理領域的代表性人物。如下為 CLUE總榜、分類榜和閱讀理解幫最新成績:

孟子預訓練模型

孟子預訓練模型是基於瀾舟團隊自研技術研發的大規模預訓練語言模型。可處理多語言、多模態資料,同時支援多種文字理解和文字生成任務,能快速滿足不同領域、不同應用場景的需求。孟子模型基於 Transformer 架構,僅包含十億參數量,基於數百 G 級別涵蓋網際網路網頁、社群、新聞、電子商務、金融等領域的高質量語料訓練。

「小模型,大智慧」。基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。孟子預訓練模型效能比肩甚至超越千億大模型,在包含文字分類、閱讀理解等各類任務上表現出色。相對已有的中文語言模型,孟子模型實現了多項突破性進展:

堅持 「小而精」 的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的效能。作為精巧的小模型,對標「巨無霸」,小模型效能超越千億規模模型。使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威 CLUE 中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,重新整理三項榜單世界紀錄。總排行榜分數突破 84 分,逼近人類基準分數(85.61)。靈活的領域和場景適應能力,方便快速定製和應用。基於 T5-style 的端到端生成的訓練正規化,同步適配 BERT-style 的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。輕量化模型研究

在輕量化模型演算法研究方面,基於自研的基於語言學知識、知識圖譜和領域資料增強等技術,從模型架構(包括基礎層 Embedding 表示和互動層 Attention 機制)到預訓練策略進行了全方位改進。具體而言,

模型結構方面,將語義角色、詞性標註等語言學特徵融合到 Embedding 表示中,基於句法約束引入注意力機制中,從而提升模型對語言學知識的建模能力。訓練策略上,引入基於實體知識和 Discourse 的 Mask 機制,強化模型對語言成分和語篇關係的表徵。 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域資料繼續訓練並構造相應的提示模版(Prompt),取得了明顯的效能提升。

圖 2:孟子輕量化模型演算法策略。

基於以上演算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義資訊能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。

Finetune 的進展

如何將預訓練模型用於各項任務同樣是一項重要挑戰,瀾舟團隊從資料增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的效能:

資料增強:使用領域相關資料;知識蒸餾:基於 Teacher-Student 自蒸餾提升訓練效率;遷移訓練:結合課程學習的思想,由易到難訓練下游模型;訓練優化:使用多種訓練目標,多角度提升模型能力;垂直化領域適應

基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:

通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。輕量化孟子模型的應用

孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文字生成、行業搜尋、機器翻譯等諸多領域。


IT145.com E-mail:sddin#qq.com