在今年智源大會上,中國人民大學高領人工智慧學院執行院長、北京智源人工智慧研究院首席科學家文繼榮教授以「從相關性到有用性」為線索,對搜尋技術的發展歷程以及未來的研究方向進行了梳理和展望。
上世紀 90 年代,網際網路剛剛興起。彼時,我們將搜尋任務定義為語法匹配。起初搜尋技術面向的使用者和任務較少,Google 研製的第一個搜尋引擎索引了 2000 多萬網頁。搜尋技術最早的受眾人群是圖書管理員、讀者,以及早期的網民,當時語法匹配方法就可以滿足搜尋的要求。
隨著網際網路的發展,搜尋技術逐漸向語義匹配發展。此時出現了更多樣化、多噪聲的資料,受眾也逐漸發展為了大量的網際網路網民。我們希望搜尋系統能夠理解使用者表達的並不清晰、完整的查詢,因此進行準確的語義的理解是非常關鍵的。
目前,搜尋技術正在向語用匹配過渡。在未來的移動網際網路等場景中,我們需要能夠隨時隨地進行搜尋,得到理想的答案,從而幫我們完成任務。汽車未來也可能成為一個重要的搜尋場景,移動的環境中存在多種可以隨時隨地獲取資訊的感測器,幫助人類完成各種任務。
為了實現搜尋技術從相關性到可用性的革新,我們需要考慮以下 3 個關鍵的因素:
(1)循因果、可解釋。挖掘出事物內在的運行規律,做到知其然且知其所以然。
(2)多輪互動。未來的搜尋系統應該扮演人類助手的角色,人類可以與之進行互動,而不僅僅只是單獨完成一次次的查詢。
(3)多模態。結合多個模態的資料幫助人類作出決策。
第一,基於因果的搜尋。因果性不光是資訊檢索領域,各個領域都非常關注,這就是為什麼要知其所以然。現在有很多模型,包括悟道2.0預訓練模型,還主要是基於相關性而非因果性的。
基於因果的智慧是當下多個研究領域的熱點問題。目前我們建立的大多數智慧系統仍然是以相關性為基礎的,它們存在諸多不足之處。
以網頁排序為例,在使用 PageRank 演算法時,我們假設網頁的連結數越則多網頁的可信度和重要性越高。然而,實際上這種假設將因果倒置了。真正的因果可能是,網頁質量高導致網頁的連結數較多。
而如果我們將上述因果關係倒置,該漏洞可能會被「搜尋引擎優化者」(SEO)利用。SEO 可以通過「灌水」增加網頁的連結數,從而提升網頁的排名,即 Link Spam。
此外,使用者點選行為還會受到選擇偏置和位置偏置等因素的影響。排名靠前的網頁被點選的可能性往往較大,排在後面的點選率則較小。如果某網頁沒有被排在第一頁,它甚至沒有機會被點選。以往的搜尋系統大多沒沒有考慮選擇偏置和位置偏置。實際上,「是否展示」、「網頁排名」、「點選」和「相關性」會構成複雜的因果關係,我們不應該簡單地構建點選率與網頁排名的相關性。
在搜尋系統中,我們可以利用使用者的反饋結果改進排序演算法,而這一過程會使上述偏置不斷在系統中積累。可見,忽略因果關係將導致模型偏置對系統性能的影響越來越大。
未來,我們需要將因果推斷整合到搜尋引擎中,從而實現更可信、公平、可解釋的搜尋,使搜尋引擎不易被攻擊、不受到偏置因素的影響、解釋得到搜尋結果的理由。
資訊檢索可以利用反事實學習消除偏置的影響,從而實現因果推斷。反事實技術指的是通過改變某些條件,並觀察改變條件之前的結果是否還會發生,從而判斷該條件對結果的影響。
在該場景下,我們一般會處理三種資料:(1)觀測到的有偏資料;(2)觀測到的無偏資料;(3)未觀測資料。
面向檢索的反事實學習包含四個部分:(1)反事實資料學習(2)對觀測到的有偏資料進行校正(3)雙魯棒方法,同時處理未觀測到的資料和觀測到的有偏資料(4)通過干預方法結合觀測到的有偏和無偏資料
我們與華為諾亞方舟實驗室合作設計了一種雙穩健排序演算法,可以在排序學習過程中同時對選擇偏置和位置偏置建模,同時處理觀測到的有偏資料和未觀測的資料,通過 IPS 消除位置偏置的影響,用直接法消除選擇偏置的影響。
我們可以直接將使用者的點選日誌和深度學習模型組合起來模擬使用者的行為,構建一個訓練排序模型的虛擬環境,並基於該環境對未觀測的資料做反事實學習。
在我們最近被 SIGIR 2021 接收的論文「Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback」中,我們用反事實約束的方法消除使用者的延遲反饋。具體而言,我們利用模擬的延遲反饋構建反事實的 Deadline,並採取了多臂老虎機強化學習策略,從而將實際產品資料離線測試的 CVR 提升了 3.86%。
圖 16:基於反事實資料增強的序列化使用者行為建模
推薦任務中往往存在資料稀疏的問題。比如,使用者購買了商品 A,後面又瀏覽或者購買了其它的商品。我們可以利用反事實技術,假設該使用者沒有購買商品 A,預測他接下來的行為。在 SIGIR 2021 論文「Counterfactual Data-Augmented Sequential Recommendation」中,我們用反事實資料進行資料增強,根據觀測資料生成反事實使用者行為樣本,進而緩解了序列建模中的資料稀疏問題。
多輪互動很多領域都在研究,自然語言處理、資訊檢索領域對其關注尤其多。我們認為未來的資訊檢索不是一趟式的。現在的搜尋引擎強迫使用者採用單輪的搜尋來找答案,而更好的方式是與系統互動,有問有答,層層遞進尋找答案。
多輪互動式自然語言處理、資訊檢索領域的另一個熱門研究課題。我們希望未來的資訊檢索不僅僅侷限於單趟互動,能夠在多輪互動中從使用者並不完整、清晰的表達中充分獲取資訊需求,這種層層遞進的方式更加符合人類的使用習慣。例如,我們在訂餐館的過程中,需要通過多輪互動逐漸確定對於餐館、菜品、交通等因素的需求。
多輪互動和資訊檢索的結合面臨諸多挑戰,例如:意圖跟蹤、語言問答的生成、結果的評價等。
在 SIGIR 2020 論文「Recent Advances in Conversational Information Retrieval」中,作者提出了一種互動式搜尋框架。在該框架下,使用者首先給出一個查詢,系統會搜尋到一些與查詢匹配的文件,並通過將多個文件綜合起來最終形成回答結果。在下一輪問答中,系統會將使用者在對話中的查詢和上一輪的回答結合起來生成考慮上下文資訊的查詢。系統在回答查詢問題的同時也可以給向用戶做推薦、與使用者進行互動,或者反過來想使用者詢問一些需要進一步說明的問題。
問答系統除了要理解使用者的問題,還需要利用資訊資源語義空間中的物件的語義。為此,我們同時在資源空間和使用者空間內構建了知識圖譜,並分別對它們進行表示學習,然後基於互資訊最大化技術對上述兩個圖譜進行了語義融合,從而使系統可以根據問題推測出使用者關注的是哪些物件及其屬性。
我們常常希望以自然的方式在對話中進行推薦。然而,缺乏測試和訓練資料集是我們面臨的主要挑戰,為此我們收集大量使用者在推薦網站上的行為資料(例如,電影瀏覽的序列),從而生成對話資料,併發布了話題引導的對話式資訊獲取資料集 TG-Redial。
我們分析了搜尋滿意度的生成機制,設計了同時考慮級聯衰減效應和近因效應的多輪互動式檢索評價指標。具體而言,我們考慮通過以下三個模型為互動式搜尋任務提供一種高質量的評價體系:
(1)瀏覽模型:記錄使用者在瀏覽階段的行為(例如,點選、提問等)。
(3)效用累計模型:在互動式搜尋中如何逐漸尋找到要理想的答案。
我們釋出了學術界第一個基於對話的推薦工具包 CRSLab,覆蓋了四個主要任務下的 18 種模型和大量已公開的資料集。
此外,在互動式搜尋領域中,我們還針對「問題生成」,「融合多輪上下文的排序模型」和「面向互動式搜尋的預訓練」等問題展開了研究。
趙鑫教授團隊釋出了推薦系統開源工具庫「伯樂」,目前已在 Github 上收穫了近 1000個 Star。
智源資訊檢索團隊基於互動式搜尋開發了智慧政務助手。該系統的第一個版本的開發工作已經完成,具備任務型多論問答、政務辦事指南導航、基於機器閱讀理解的模型問答、答案融合排序等功能。
多模態預訓練技術對於搜尋任務也具有十分重要的意義。人類在做資訊搜尋時往往會使用多模態的資料。在 2005 年《自然》雜誌刊登的的一篇論文中,作者指出人腦會自動將對應於同一個概念的多模態資訊對映到相同的語義空間的表徵上,我們期望計算機也能實現同樣的功能。
人腦的強大之處在於,我們可以利用弱相關的資訊。例如,看到圖 28 中的蛋糕,人類會想到吃蛋糕不利於減肥。目前主流的模型旨在理解圖文資料間的強相關資訊,中國人民大學、中科院計算所、清華大學、智源人工智慧研究院聯合組成的文瀾團隊開發了能夠有效利用圖文資料間弱相關資訊的大規模預訓練模型,更加符合實際需求。此外,文瀾團隊還收集了海量的資料用於模型預訓練。
我們主要使用了圖片和文字兩個模態的資料,根據圖文匹配程度對樣本進行了排序,從而提升匹配精度,並使用了跨模態對比學習技術構建了雙塔的 BriVL 架構。
與 OpenAI 的 CLIP 和谷歌的 ALIGN 大規模預訓練模型相比,文瀾模型的效能均取得了較大程度的提升。
此外,我們還研發了多語言多模態預訓練模型,旨在結合多模態與多語言與訓練的優勢,利用視覺作為多種語言知識遷移的橋樑,為多模態模型提供更廣闊的應用場景。
當我們向文瀾模型輸入詩句時,模型會自動生成符合詩句內容和意境的影象,這證明了多模態資料之間的相關性。
基於文瀾模型,我們可以實現跨模態檢索,只需向系統輸入關鍵詞,就可以檢索出來之前並沒有標註過的影象。
兩年前,智源資訊檢索與挖掘團隊成立時,我們的願景就是未來能夠創造出類似於電影《鋼鐵俠》中的智慧資訊助手賈維斯這樣的搜尋系統。
無論人類想知道什麼資訊,都可以通過與該系統進行對話得到最智慧的答案。由於人的儲存計算和能力是有限的,所以我們需要使用這樣的「外掛」,從而使人類的能力得到提升,最終將資訊和知識轉化為有用的行動。
互動式個人智慧資訊助手需要具備自然互動的能力,在主動的多輪互動中做到自然語言對話;需要為使用者指定專屬的使用者畫像、考慮專屬的個性化服務,做到場景感知;同時,我們需要整合多源資料、多模態資料、個人資料、來自第三方 APP 的資料解決多模態整合的問題;此外,我們還需要向該系統中融入知識,基於因果推理技術實現安全、可解釋的搜尋,實現搜尋的高準確性、高魯棒性。