首頁 > 科技

DeepMind開源的AlphaFold怎麼用?開啟Colab就能線上用

2021-07-31 06:46:45

機器之心報道
機器之心編輯部

藉助 Colab,你可以線上使用 AlphaFold 的一個簡化版本。

前段時間,《自然》雜誌刊登了 DeepMind 的兩篇論文,介紹了該公司在蛋白質結構預測方向的最新進展。研究表明,DeepMind 的 AlphaFold 所預測的蛋白質結構已經能達到原子水平的準確率。與此同時,他們還在 GitHub 上公開了 AlphaFold 的原始碼。

開源連結:https://github.com/deepmind/alphafold

然而,有些研究者抱怨說資料檔案太大了(2.2TB)。於是,在幾個小時之內,一些敬業的研究者就創造出了一個 Google Colab notebook。藉助這一工具,任何一個擁有免費谷歌賬號的人都可以在自己感興趣的蛋白質上運行略微簡化的 AlphaFold 2,甚至不需要下載資料,也不需要任何特殊硬體。所有的計算都是在雲上進行的,而且是在一個免費的 colab 空間內進行的,這讓使用者能夠對運行進行微調。這是加速技術大眾化最好的方法之一。

Colab 地址:https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb

開放的 AlphaFold 將分子生物學研究帶入新時代

2020 年 12 月,AlphaFold2 在國際蛋白質結構預測競賽 CASP14 擊敗一眾選手,實現了前所未有的結構預測精度,這破解了出現 50 年之久的蛋白質分子摺疊問題,被稱作結構生物學「革命性」的突破、蛋白質研究領域的里程碑。

但成功之後,批評和質疑也隨之而來,這些聲音包括:「學術界無法與這樣的巨頭競爭」「他們做很好,但我們不能用」「他們肯定不會把它開放給別人使用」。

但 DeepMind 最近的舉動迴應了這些擔憂,他們不僅開源了 AlphaFold 的程式碼,還提供了一個 Colab pipeline。有個這個東西,你甚至可以通過手機使用簡化版 AlphaFold 2。

如下面兩位研究者所說,Colab notebooks 可以完成從載入庫、輸入蛋白質序列到構建蛋白質序列對齊等一系列任務。在結果展示介面,你可以在瀏覽器中看到 5 個 3D 模型,以及根據序列估算的 LDDT 分數。此外,原則上你還可以 fork 這些 notebook 並自行編輯,使其適用於更具體的任務。

不過,Colab 版本的 AlphaFold 2 經過了一些簡化,沒有模板(同源結構),而且只用了 BFD 序列資料庫的一部分。開發者表示,他們已經在數千個最近的 PDB 結構上驗證了簡化版和完整版的差異,雖然在許多目標上,Colab 版本的準確度與完整的 AlphaFold 系統幾乎相同,但由於 MSA(多序列比對)較小和模板的缺失,一小部分目標的準確度出現了顯著下降。如果你想得到更加可靠的結果,建議使用完整的開源 AlphaFold 或 AlphaFold 蛋白質結構資料庫。

資料庫連結:https://alphafold.ebi.ac.uk/

在洛桑聯邦理工學院研究結構生物學、分子建模等方向的博士後 Luciano Abriata 表示,他已經用這些 notebook 做了一些測試,而且已經得出了一些結論。最重要的是序列對齊等功能對於獲得更好的模型大有幫助。Abriata 還發現,很多人在使用這個工具時都忽略了 LDDT 估計圖,但其實這些圖非常關鍵。

AlphaFold 的開放使用給全世界的研究者都帶來了便利。對於那些難以用實驗測定結構的蛋白質來說,通過這種方式建立蛋白質模型至關重要。即使你有一些無法適當使用的資料,擁有一個優秀的蛋白質模型也是有幫助的。

隨著 DeepMind 所涉足的生物學領域愈加廣泛(目前還沒有計劃公佈,但可以猜測他們可能進軍蛋白質間的相互作用以及下一步的小分子設計),更多的學者將從 AF2 的應用和所有公開的知識中獲利。

長期以來,生物學領域的研究一直依賴計算機和傳統軟體。而如今,生物學已經進入了 AI 時代。


IT145.com E-mail:sddin#qq.com