首頁 > 科技

AI反詐騙,識別關鍵字就能秒破犯罪陷阱 | CCF C-08

2021-07-29 03:15:13

明敏 發自 凹非寺量子位 報道 | 公眾號 QbitAI

上一秒收到「XX信貸」的詐騙簡訊,下一秒警察蜀黍的溫馨提醒就到了。

如此迅速的出警速度,這背後其實還有AI默默助力。

只要NLP識別到使用者簡訊中的「客戶、拖欠、信貸」等關鍵字,手機中的反詐預警系統就會被觸發,使用者此時就能收到風險提醒。

維護網路安全,AI已經成為了非常重要的角色之一。

該如何更好利用AI,是網安人員們現在更加關注的話題。

在CCF C第八次活動中,來自學術界和工業界的科技大咖們就深入探討了這個問題。

這一次,他們齊聚綠盟科技,就知識圖譜與語義分析的關鍵技術及應用實踐,做了細緻的分享交流。

讓網安知識沉澱下來

在數字化變革越來越快的今天,網路安全也顯得愈發重要。

從前,維護網路安全依賴人工攻防對抗演練、依賴專家,專業知識沒有沉澱下來,技術發展也相對緩慢。

隨著網路發展越來越快,資料量飛速增長、攻防對抗越來越頻繁,依靠人力顯然變得不再可行。

CCF CTO Club成員、綠盟科技集團首席技術官葉曉虎博士就表示:

在今天,網路安全必須依賴人工智慧技術!

而利用AI的關鍵,是對整個網路環境中的知識整理。

由此,多源異構資料融合需求也變得非常迫切。

資料融合有助於資料的統一消費和利用,關聯複雜且隨時空演化的資料,找出隱藏在資料下的知識。

與此同時,還要從資料融合走向知識融合。

這將不同於傳統主要基於字元串的檢索,而是真正理解資料資源背後的知識。

如何做到這一點呢?

這就要依靠知識圖譜技術

它可以自下而上自動挖掘知識,根據不同語義關係進行融合,一改從前過分依賴專家、應用封閉的局面。

讓知識真正沉澱下來,加速技術發展的速度,解決網路安全人才的巨大缺口。

不僅如此,它還能讓安全分析變得更加智慧,通過語義理解、動態關聯、智慧檢索、機器推理等技術,自動獲取知識構建流程和技術。

從海量異構檔案中三元組自動抽取,基於規則匹配或自然語言,根據模式庫、實體庫、安全語料庫作出判斷。

這在實際網路安全中已經有了應用:

UC伯克利和清華大學就已經從GPT等預訓練模型中無監督地構建出知識圖譜。

無需人工進行額外訓練,只需語料和預訓練好的模型,就可以從頭建立出知識圖譜,甚至挖掘出人類發現不了的新關係。

事實上,用知識圖譜+人工智慧構建新型網路資訊體系,在國外也早已經有相關項目。

美國已經啟動「深綠(Deep Green)」計劃以及Insight、XDATA等基礎智慧技術研究項目,探索從文字、影象、聲音、視訊等不同類型多源資料中自主獲取、處理資訊、提取關鍵特徵、挖掘關聯資訊的相關技術,加速人工智慧在軍事領域的應用。

具體到實際應用上,葉曉虎表示,我們可以通過半自動結合人工方式提升知識圖譜的自動化構建水平,助力安全分析實現認知智慧,滿足語義理解、動態關聯、智慧檢索和機器推理的業務需求。

只看一個日誌就能解決問題

事實上,攻防對抗變得更加高頻、激烈並不是危言聳聽。

今年5月,美國最大輸油管道被黑客攻擊中斷,17州陷入緊急狀態;

同月,比利時政府網站遭到大規模DDoS攻擊癱瘓。

面對這樣的惡意攻擊,除了做好防衛,事件後續溯源、取證和分析也至關重要。

但還是老問題,現在的網路資料量太龐大了,每天都能生成百萬量級的日誌。

靠人力肉眼來看?

非常不現實。

北京航空航天大學網路空間安全資訊學院資訊對抗繫系主任毛劍博士就表示:

通過系統,自動提取日誌中的高階行為語義,並對語義進行量化聚類,提取表徵性行為,可以大幅減少工作量。

通過語義提取,安全人員只需要在一個大類中看一個日誌檔案,有效避免了大量重複的查詢工作。

雖然知識圖譜和語義分析能夠讓網路安全維護變得更加智慧,但在實際應用中還有很多亟需解決的問題。

活動現場,各位科技大咖就這些相關問題進行了深入探討。

如何應對碎片化知識給構建知識圖譜帶來的挑戰?這是知識圖譜的一個大難點。

中科院自動化所研究員、博士生導師趙軍就表示:

在資訊表達層面來說,知識超越一切。

因此,在各個模組上資訊或許存在差異,但是知識不會。

知識圖譜本來的工作就是整合不同模組、來源的資訊,但是在具體情況中,如果來源資訊有問題,那麼在自動抽取過程中也會存在錯誤,知識圖譜的可信度就會大大降低。

面對這一問題,選擇合適的表示方式、圖譜演算法,以及對應的技術和平臺非常重要。

而對於知識圖譜的實際應用,毛劍表示基於公開資料集構建的知識圖譜,實際的模型有時並不好用。因此生成圖譜後,再融合新的知識至關重要。

趙軍認為,必須補充新知識、淘汰舊知識。保持大的知識框架不變,不斷進行增量式學習,讓知識圖譜不僅僅是一個知識倉,也要進行自主進化。

浙江大學電腦科學與技術學院教授/博導陳華鈞則認為,知識圖譜在應用上很難有共性。很多工作和所在領域密切相關,必須要根據領域的特點來選定適合的圖譜,這是使用知識圖譜的一個準則。

CCF C

以上精彩內容,全部出自CCF C的第8期活動,主題為「知識圖譜與語義分析」,由綠盟科技承辦。

C活動是由中國計算機學會CCF CTO Club發起的,旨在聯結企業CTO及高階技術人才和資深學者,每次以一個技術話題為核心,走進一家技術領先企業。

目前為止已經舉辦7期,承辦企業與主題分別是:

京東-智慧客服;小米-智慧家居;搜狗-深度語義學習與網路搜尋;百度-AI+開源;亞馬遜雲科技-雲端計算;阿里巴巴淘系技術-內容化驅動;知乎-如何擁抱開源。

下一次活動將移步上海,由聯想上海承辦,具體時間是8月13日週五下午14:00-17:30。

— 完 —


IT145.com E-mail:sddin#qq.com