首頁 > 軟體

3D視訊聊天、十倍效能TPU:谷歌在I/O大會上讓我們看到了未來

2021-05-19 19:00:48

機器之心報道

作者:澤南、張倩

去年的谷歌 I/O 大會因疫情取消了,今天我們看到的,是谷歌積攢兩年的重要技術。它們也是 AI 等領域裡最接近未來的那一部分。

5 月 19 日凌晨,一年一度的谷歌 I/O 大會在線上召開,在谷歌園區戶外進行的開場 Keynote 上,這家公司釋出了一系列引人矚目的全新產品。

「我們的目標一直是構建一個能夠幫助所有人的谷歌,」谷歌執行長桑達爾 · 皮查伊說道。用 AI 為更多人提供便利是今天谷歌活動的主題。

在長達幾個小時的釋出會中,首先你要知道的黑科技是全息視訊聊天技術 Project Starline。在疫情期間,很多人無法和親人、朋友相聚,而谷歌推出的「聊天室」可以讓你和遠在天邊的他們近距離碰面,互相問候、眼神交流,就像真的互相見到一樣。

這看起來有點像實時的 3D 電影,又有點像《美國隊長:內戰》裡鋼鐵俠在展示自己少年時的回憶。

實際上,這是由高解析度感測器、數十個景深掃描感測器以及 65 英寸「光場顯示器」重新生成的實時 3D 模型。谷歌表示這一項目已開發了數年之久,其背後是大量計算機視覺、機器學習、空間音訊和資料壓縮技術。谷歌還為此開發出了一套突破性的光場系統,讓人無需佩戴眼鏡或耳機即可感受到逼真的體積和深度感。

谷歌計劃在今年晚些時候將 Project Starline 進行小範圍的推廣。除了和親戚朋友打招呼,這類技術更多的應用場景應該還是遠端會議,用慣了 zoom 的我們以後要體驗「人在家中坐,領導飛過來」了。

Starline 當然只是 I/O 大會上眾多新技術的一小部分。20 年前,谷歌率先將機器學習技術應用於搜尋中,10 年前,Google Brain 團隊 Quoc V. Le、Jeff Dean、吳恩達等人發表了著名的「識別貓」論文,其中研究人員利用一千臺電腦的 1.6 萬個處理器核心訓練了一個影象識別的神經網路,它被很多人視為深度學習技術爆發的標誌。

如今,谷歌的 AI 能力正讓更多「不可能」變為現實,他們還要用量子計算等技術取得更多突破。

TPU v4,效能提升十倍

2016 年,谷歌釋出了旗下首款定製 AI 晶片 TPU,與傳統的 CPU+GPU 組合相比,這類專用晶片在搜尋、翻譯、語音助手、影象識別等 AI 任務上有數量級的效能優勢。這些晶片的應用為谷歌業務帶來了優勢,進而作為雲服務算力的一部分供開發者使用。谷歌在 2018 年和 2019 年繼續推出了 TPU v2 和 v3。

谷歌 TPU 雖然並不外賣,但一直被認為是人工智慧時代機器學習專用加速晶片的典範。在今天的 I/O 大會上,谷歌釋出了這款晶片的最新、最強版本。

如果只看晶片的資料,TPU v4 的算力是 v3 的兩倍,而如果看實際效能,v4 實際上相比前一代提升了十倍之多,谷歌表示,這主要得益於系統內部的互聯速度,以及架構方面的提升。

皮查伊表示,新的 TPU 實現了計算效能的里程碑式突破,要想實現 1 exaFLOP 級的算力(每秒 10 的 18 次方浮點運算),以前我們需要超級計算機和大量 GPU,現在只需一組 4096 塊 TPU 組成的伺服器就可以了。如今全球超算 Top 500 榜單第一名——日本的「富嶽」最高效能只有它的一半。

與英偉達等晶片公司提出的新一代 AI 加速器類似,谷歌 TPU 效率提高的祕訣在於極快的晶片間互聯技術,可以將數百塊獨立的晶片轉變成緊密結合的單個系統來使用。皮查伊表示:「TPU pod 所有晶片間的大規模互聯頻寬是其他任何組網技術的十倍。」

TPU v4 已經部署在谷歌的資料中心中使用,今年晚些時候將向人們開放晶片例項。

另外,谷歌表示 TPU v4 更高的運算效率帶來的好處是更環保。在未來部署的資料中心上,TPU 將使用近 90% 的無碳新能源運行。

MUM,比 BERT 強 1000 倍的多模態、多語言大模型

在 I/O 大會上,谷歌展示了使用 TPU v4 的人工智慧應用。我們知道,如今很多 AI 應用是基於 Transformer 的,該模型在 2017 年由谷歌研究人員提出,用全 attention 的結構代替了 LSTM,在翻譯任務上取得了更好的成績。這項技術隨後引發了預訓練模型的技術突破。

很多人都知道閱讀理解模型 BERT,其中的 T 是 Transformer;谷歌正在開發的搜尋模型 T5,其中的 T 是 Transformer;如果你知道此前 OpenAI 提出的全球最大預訓練 AI 模型 GPT-3,其中的 T 也代表 Transformer。

目前谷歌正在研究的模型是 MUM(Multitask Unified Model,多工統一模型)。谷歌表示,雖然同樣是基於 Transformer 架構,但 MUM 比 BERT 強 1000 倍。

從名字可以看出,MUM 是一種多模態模型,可以同時處理網頁、影象等多種資料(未來還有可能擴展到音訊、視訊等)。這種多模態的設計使其非常適用於搜尋。谷歌表示,如今的搜尋引擎還不夠智慧,無法通過一次提問提供更加全面的資訊,因此人們需要搜尋多次。但有了 MUM 之後,這種問題可以得到緩解。

舉例來說,你之前去過亞當斯山徒步,現在想去富士山,你想知道自己該做哪些準備。在這種情景下,你只需要把「我需要做什麼準備」這個問題拋給搜尋引擎,其背後的 MUM 就可以理解你所謂的「準備」包含哪些內容,比如兩山之間的差別、需要進行哪些鍛鍊、攜帶哪些裝備以及徒步的路線等,然後指向網路上有用的文章、視訊和影象。

這種多模態還可以讓你用文字之外的資訊進行搜尋,比如拍下自己的鞋子,問「我能穿著這雙鞋子去富士山嗎?」

此外,MUM 還是多語言的,使用了 75 種語言進行訓練。這使其具備了在不同語言之間傳遞知識的能力。還是以上述問題為例,關於「富士山」的資訊很多都是日語的,但有了 MUM 的加持,你用英語或其他語言也能搜到它們。

LaMDA:聊天不設限的語言模型

除了 MUM 之外,谷歌還在此次的 I/O 大會上公佈了另一個基於 Transformer 的語言模型:LaMDA(Language Model for Dialogue Applications)。和 MUM 不同,LaMDA 是專門為對話打造的,而且是開放域對話。

谷歌表示,LaMDA 可以和人在無窮無盡的話題轉換中聊下去。在接受對話訓練的過程中,它掌握了開放式對話與其他語言的細微差別,尤其是「sensibleness」(合理)和具體。

舉例來說,如果你對別人說,「I just started taking guitar lessons」人類的回答可能是:「How exciting! My mom has a vintage Martin that she loves to play」。在這句對話中,「How exciting」就是一種合理的回答,但同時我們也注意到,這句話幾乎也是放之四海而皆準的(就像「我不知道」),因此並不能完整地體現對話機器人的智慧性。而後面那句「My mom has a vintage Martin that she loves to play」才是人類對話更重要的特點:合乎語境且具體。谷歌表示,這就是他們的 LaMDA 所學到的內容。

谷歌還表示,LaMDA 是基於他們 2020 年的一項研究。研究連結:https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

「拍一拍」診斷面板病

手機拍照除了可以翻譯、做數學題、檢測空氣質量,現在還能看病。利用 AI 診斷疾病是很多公司在過去幾年發力的方向,在這次 I/O 上,谷歌也分享了他們在結核病等方面取得的進展。但比較有意思的是,他們把部分疾病的診斷直接和手機攝像頭整合到了一起,幫助你隨時瞭解和自己的面板、頭髮及指甲相關的問題。

谷歌表示,開發這一應用是因為他們每年都能看到接近 100 億個關於面板、指甲和頭髮問題的搜尋。全球有 20 億人患有面板病,因此面板病專家的數量是遠遠不夠的。為了訓練這一模型,他們使用了大約 65000 張影象和診斷面板狀況的病例脫敏資料、數百萬張精心製作的面板相關的影象和數以千計的健康面板樣本,這些資料來自不同年齡、性別、種族的人群。在此之前,他們關於面板病的研究登上過《自然 · 醫學》等期刊。

當然,這些診斷結果只是初步判斷,患者的後續治療仍然需要諮詢醫生。谷歌表示,他們將在今年晚些時候上線試用版。

100 萬個物理位元的量子計算機

早在 2019 年,谷歌量子計算實驗室實現「量子優越性」的訊息就登上了《自然》的封面。谷歌已經利用一臺 54 量子位元的量子計算機實現了傳統架構計算機無法完成的任務。在當時的世界第一超算需要計算 1 萬年的實驗中,谷歌的量子計算機只用了 3 分 20 秒。

雖然這項研究一經發表就受到了 IBM 等同行的質疑,量子計算距離實用化還存在這樣那樣的挑戰,但毫無疑問,在摩爾定律逐漸失效的今天,尋找未來計算機架構正愈發顯得迫在眉睫,而量子計算機是其中極具希望的方向。

在 I/O 大會上,谷歌展示了更大的野心:他們想用 100 萬個物理量子位元建造一臺有糾錯能力的量子計算機。相比於今天還不到 100 個物理位元的量子計算機來說,這個構想真的很大膽。

圖源:https://www.cnet.com/news/quantum-computer-makers-like-their-odds-for-big-progress-soon/

根據計劃,這些量子位元仍將運行在接近絕對零度的溫度下。谷歌樂觀估計會在這個十年結束之前實現此構想。

眾所周知,雖然量子計算機具有在某些問題上(比如大數因子分解和無序資料庫搜尋)遠超經典計算機的運算能力。然而,儲存量子資訊的物理系統不可避免會與環境相互作用,受到噪聲的影響而失去量子特性,進而失去準確計算的能力。這裡的噪聲可能僅僅是一點點熱量。

要想糾正一個量子位元的錯誤,我們需要很多個圍繞在該量子位元周圍的其他物理量子位元。這些物理量子位元可以組成一個「邏輯量子位元」。谷歌表示,他們將通過把 1000 個物理量子位元束縛到一起來構建這個邏輯量子位元,從而達到糾錯的目的。

如果真能做到這一點,我們就擁有了一個可以持續工作的「完美量子位元」,就像普通的計算機一樣。這將會是一個重要的里程碑。有了一個能夠糾錯的量子位元之後,我們就可以將兩個(或更多)這樣的邏輯量子位元組合到一起,就像量子時代的電晶體一樣。構建 1000 個邏輯量子位元可能需要上百萬的物理位元,整個機器可能會佔滿一個房間。

在本次 I/O 大會上,谷歌介紹了他們為實現這一願景打造的「量子 AI 園區」。該園區位於加州聖塔芭芭拉市,裡面有谷歌的第一個量子資料中心、量子硬體研究實驗室以及他們自己的量子處理器晶片製造設施。

谷歌表示,建造這樣的量子計算機是為了擁有前所未有的計算能力,從而解決新葯研發等問題。

Android 12 和 WearOS

雖然安卓 12 的特性已經在此前的開發者預覽版中被劇透過不少,但在 I/O 大會上谷歌釋出的大幅度更新提供了更多正式版的細節。

對於使用者來說,最為明顯的更新就是全新的主題了,Android 12 將採用全新的「Material You」設計,提供了大量自定義風格和功能。谷歌在原來的黑白兩色之外加入了動態主題顏色,其可以根據使用者選擇的桌布選擇對應的特殊顏色。此外所有按鈕、滑塊和所有其他 UI 視窗小部件均已重塑和重新排列。

此外全新的滾動列表設計出現在了安卓 12 上,就像三星手機的 OneUI 上一樣。在桌面上谷歌反倒向蘋果學習,新的標準化 widget 就像 app 的大「圖示」一樣包含大量詳細內容,這樣的設計可以在如今手機普遍較大的螢幕上展示更多。

此外,谷歌還在新安卓系統中還提供了大量有關隱私保護的功能。目前 Android 12 的 Beta 版已經正式推出,支援 11 家手機廠商的裝置。

在 IO 大會上,谷歌也放出了最新版 Wear OS 的訊息。雖然根據統計,2020 年全球可穿戴裝置出貨已達 1.93 億隻,智慧手錶和手環在人們的生活中出現得越來越頻繁,但手錶屆的安卓 Wear OS 存在感一直比較稀薄。Wear OS 的最後一次重大設計變更還是在 2018 年。

新版本的 WearOS 更名為 Wear,獲得了更多廠商的支援,三星下一代智慧手錶 Galaxy Watch 4 將使用基於這一架構的 Tizen 系統,從而使得應用運行更快,更加省電。

除此之外,谷歌還發布了協作式辦公套件 Smart canvas 等一系列工具,並在 Google Map 中首次加入了詳盡的自行車導航功能,並對 Google Meets 進行了大量技術更新。

有關本次 I/O 大會的更多細節,可以參考谷歌的 I/O 專題介面或觀看回放。

專題頁面地址:https://www.blog.google/


IT145.com E-mail:sddin#qq.com