這是科學(xué)激動人心的新一步。我們將直播解讀這兩研究,詳見文后。 使用 氨基酸 序列預(yù)測蛋白質(zhì)形狀的 AphaFold2,終于開源了。眾所周知,蛋白質(zhì)是生命活動的基本組件,它們可以單獨存在,也會協(xié)同工作。為了發(fā)揮作用,這些長鏈氨基酸扭曲、折疊并交織成復(fù)雜的形狀,這些形狀可能很難,甚至根本不可能破譯。科學(xué)家們一直在夢想通過基因序列簡單地預(yù)測蛋白質(zhì)形狀——如果能夠成功,這將開啟一個洞察生命運作機(jī)理的新世界。然而近五十年來,人們的進(jìn)展緩慢。7 月 15 日,《自然》雜志一篇論文被接收的消息引發(fā)了人們的關(guān)注,谷歌旗下人工智能公司 DeepMind 在研究《Highly accurate protein structure prediction with AlphaFold》中宣布,人們首次發(fā)現(xiàn)了一種通過計算來預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法。即使在不知道相似結(jié)構(gòu)的情況下,AI 也可以在原子層面上精確預(yù)測蛋白質(zhì)結(jié)構(gòu)。也就是說,之前備受關(guān)注的 AlphaFold2 終于開源了。 無獨有偶,作為相當(dāng)熱門的研究領(lǐng)域,Science 同樣在今天發(fā)表了一篇論文,介紹并開源了一個可媲美 AlphaFold2 的新工具 RoseTTAFold。所以說,賽馬了,感興趣的同學(xué)可以自由選擇。AlphaFold2 開源,原子精度預(yù)測蛋白質(zhì)結(jié)構(gòu)2020 年 12 月的國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽 CASP ,一項重磅成果引發(fā)了科技界所有人的關(guān)注:由 DeepMind 開發(fā)的 AlphaFold 2 擊敗一眾選手,在準(zhǔn)確性方面達(dá)到比肩人類實驗結(jié)果,被認(rèn)為是蛋白質(zhì)折疊問題的解決方案。 在兩年一次的 CASP 競賽中,各組爭先預(yù)測蛋白質(zhì)的 3D 結(jié)構(gòu)。2020,AlphaFold 擊敗了所有其他小組,并在準(zhǔn)確性方面與實驗結(jié)果相匹配。它能以就計算機(jī)方法而言前所未有的準(zhǔn)確度根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測其三維結(jié)構(gòu)。 這破解了出現(xiàn)五十年之久的蛋白質(zhì)分子折疊問題,同時證明了 AI 對于科學(xué)發(fā)現(xiàn),尤其是基礎(chǔ)科學(xué)研究的影響。科學(xué)家們紛紛表示,這項突破極具意義。Alphafold 的突破性研究成果將幫助科研人員弄清引發(fā)某些疾病的機(jī)制,并為設(shè)計藥物、農(nóng)作物增產(chǎn),以及可降解塑料的「超級酶」研發(fā)鋪平道路。因此,這段時間以來,科研圈也在等待 AlphaFold 2 的技術(shù)細(xì)節(jié)。不久之前,Demis Hassabis 就曾在 Twitter 上表示 DeepMind 將開源 AlphaFold2,如今終于兌現(xiàn)承諾。7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 雜志上發(fā)表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并開源了 AlphaFold2,它預(yù)測的蛋白質(zhì)結(jié)構(gòu)能達(dá)到原子水平的準(zhǔn)確度。 在文章中,DeepMind 表示 AlphaFold 可以周期性的以原子精度預(yù)測蛋白質(zhì)結(jié)構(gòu)。在技術(shù)上,AlphaFold 利用多序列對齊,進(jìn)行深度學(xué)習(xí)算法的設(shè)計,還結(jié)合了關(guān)于蛋白質(zhì)結(jié)構(gòu)的物理和生物學(xué)知識提升效果。作為通訊作者之一,Demis Hassabis 在一段聲明中寫到,「去年在 CASP14 大會上我們揭曉了一個可以將蛋白質(zhì) 3D 結(jié)構(gòu)預(yù)測精確到原子水平的全新 AlphaFold 系統(tǒng),此后我們承諾會分享我們的方法,并為科學(xué)共同體提供廣泛、免費的獲取途徑。今天我們邁出了承諾的第一步,在《自然》期刊上分享 AlphaFold 的開源代碼,并發(fā)表了系統(tǒng)的完整方法論,詳盡細(xì)致說明 AlphaFold 是如何做到精確預(yù)測蛋白質(zhì) 3D 結(jié)構(gòu)的。作為一家致力于推動科學(xué)進(jìn)步的公司,我們期待看到我們的方法將為科學(xué)界啟發(fā)出什么其他新的研究方法,也期待很快能和大家分享更多我們的新進(jìn)展?!?/span>AlphaFlod 首次參加 CASP 就在 98 名參賽者中名列榜首,準(zhǔn)確地從 43 種蛋白質(zhì)中預(yù)測出了 25 種蛋白質(zhì)的結(jié)構(gòu)。而同組比賽中獲得第二名的參賽者僅準(zhǔn)確預(yù)測出了 3 種。AlphaFold 專注于從頭開始建模目標(biāo)形狀,且并不使用先前已經(jīng)解析的蛋白質(zhì)作為模板。在大多數(shù)情況下,AlphaFold 的準(zhǔn)確性與實驗相媲美,大大優(yōu)于其他方法。 圖 1:AlphaFold 產(chǎn)出高準(zhǔn)確度的架構(gòu)。 AlphaFold 網(wǎng)絡(luò)直接預(yù)測給定蛋白質(zhì)的所有重原子的三維坐標(biāo),使用基本氨基酸序列和同源序列的對齊序列作為輸入 (如圖 1e)。AlphaFold 網(wǎng)絡(luò)由兩個主要部分組成。首先,網(wǎng)絡(luò)的主干通過一個稱為 Evoformer 的新神經(jīng)網(wǎng)絡(luò)塊的重復(fù)層來處理輸入,產(chǎn)生一個 Nseq × Nres 陣列 (Nseq: 序列數(shù),Nres: 殘差數(shù)) ,它表示一個處理過的 MSA 和一個表示剩余對的 Nres × Nres 陣列。Evoformer 塊包含許多新穎的基于注意力和非基于注意力的成分,它的關(guān)鍵創(chuàng)新是與 MSA 交換信息的新機(jī)制,并能直接推理空間和進(jìn)化關(guān)系的配對表征。網(wǎng)絡(luò)的主干之后是結(jié)構(gòu)模塊(Structure Module),該模塊以蛋白質(zhì)的每個殘基的旋轉(zhuǎn)和平移的形式引入了顯式的 3-D 結(jié)構(gòu)。這些表征在微不足道的狀態(tài)下初始化,所有旋轉(zhuǎn)設(shè)置為同一性(identity),所有位置設(shè)置為原點,但能夠快速開發(fā)和完善具有精確原子細(xì)節(jié)的高度準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)。這部分網(wǎng)絡(luò)的關(guān)鍵創(chuàng)新包括打破鏈原子結(jié)構(gòu),允許同時局部細(xì)化結(jié)構(gòu)的所有部分,一個新的「equivariant transformer」允許網(wǎng)絡(luò)隱式地推理未表示的側(cè)鏈原子,以及損失項可對殘基方向的正確性賦予重要權(quán)重。
 圖 4:解釋神經(jīng)網(wǎng)絡(luò)更多細(xì)節(jié)大家可以查看 Nature 原文與 DeepMind 提供的補充材料。最后提一句,也不知是何原因,該論文未經(jīng)編輯就出版了(5 月接收、7 月發(fā)表),難道是知道今天 Science 也將發(fā)表論文介紹一個可與 AlphaFold2 相匹配的研究?也就是下面這一篇。華盛頓大學(xué)等開發(fā)媲美 AlphaFold2 的新工具 RoseTTAFoldDeepMind 在 2020 年的 CASP14 會議上展示了其在該領(lǐng)域的顯著成果 AlphaFold2,當(dāng)時該技術(shù)在預(yù)測蛋白質(zhì)方面取得了排名第一的準(zhǔn)確率。華盛頓大學(xué)醫(yī)學(xué)院蛋白質(zhì)設(shè)計研究所(Institute for Protein Design)的研究者們很大程度上重現(xiàn)了 DeepMind 在蛋白質(zhì)預(yù)測任務(wù)上的表現(xiàn),他們聯(lián)合哈佛大學(xué)、德克薩斯大學(xué)西南醫(yī)學(xué)中心、劍橋大學(xué)、勞倫斯伯克利國家實驗室等機(jī)構(gòu)研發(fā)出了一款基于深度學(xué)習(xí)的蛋白質(zhì)預(yù)測新工具 RoseTTAFold,在預(yù)測蛋白質(zhì)結(jié)構(gòu)上取得了媲美 AlphaFold2 的超高準(zhǔn)確率,而且速度更快、所需要的計算機(jī)處理能力也較低。這項研究已經(jīng)在 Science 上發(fā)表。 論文鏈接:https://science./content/early/2021/07/14/science.abj8754華盛頓大學(xué)醫(yī)學(xué)院團(tuán)隊也向社區(qū)開源了該工具,來自世界各地的科學(xué)家都可以使用它來構(gòu)建蛋白質(zhì)模型,加速自己的研究。在上傳至 GitHub 后不久,該工具就已被 140 多個獨立研究團(tuán)隊下載。 項目地址 https://github.com/RosettaCommons/RoseTTAFold具體地,在這項研究中,華盛頓大學(xué)醫(yī)學(xué)院生物化學(xué)系教授、蛋白質(zhì)設(shè)計研究所所長 David Baker 領(lǐng)導(dǎo)的計算生物學(xué)家團(tuán)隊開發(fā)了一款叫做「RoseTTAFold」的軟件工具,該工具利用深度學(xué)習(xí)技術(shù),根據(jù)有限信息準(zhǔn)確、快速地預(yù)測蛋白質(zhì)結(jié)構(gòu),原本這一工作需要數(shù)年的實驗室研究。從結(jié)構(gòu)上來看,RoseTTAFold 是一個三軌(three-track)神經(jīng)網(wǎng)絡(luò),意味著它可以兼顧蛋白質(zhì)序列的模式、氨基酸如何相互作用以及蛋白質(zhì)可能的三維結(jié)構(gòu)。在這種結(jié)構(gòu)中,一維、二維、三維信息來回流動,使得網(wǎng)絡(luò)能夠集中推理蛋白質(zhì)的化學(xué)部分與它的折疊結(jié)構(gòu)。下圖 A 為具有 1D、2D 和 3D 注意力軌跡(attention track)的 RoseTTAFold 架構(gòu);B 為 CASP14 目標(biāo)上蛋白質(zhì)預(yù)測方法的平均 TM-score;C 為 CAMEO 中介(medium)和硬(hard)目標(biāo)的盲基準(zhǔn)測試結(jié)果。 RoseTTAFold 方法的準(zhǔn)確率比目前可用的方法高得多,因而研究者想要測試是否可以利用它解決以前未解決且具有挑戰(zhàn)性的 MR 問題,并改進(jìn)臨界個案的解決方案。四個最近的晶體數(shù)據(jù)集,包括牛屬甘氨酸 N - ?;D(zhuǎn)移酶(GLYAT)、細(xì)菌氧化還原酶以及細(xì)菌表面層蛋白(SLP)(下圖 A)和來自真菌平革菌屬金孢子菌屬的分泌蛋白(下圖 B),基于 PDB 蛋白質(zhì)數(shù)據(jù)庫中可用的模型無法利用 MR 解決,因此研究者使用 RoseTTAFold 模型進(jìn)行了重新分析: 另一方面,RoseTTAFold 能夠利用一臺游戲計算機(jī)在短短 10 分鐘內(nèi)計算出蛋白質(zhì)結(jié)構(gòu)。研究者使用 RoseTTAFold 計算出了數(shù)百種新的蛋白質(zhì)結(jié)構(gòu),其中包括許多人類基因組中認(rèn)知甚少的蛋白質(zhì)。此外,他們還生成了與人類健康直接相關(guān)的一些蛋白質(zhì)結(jié)構(gòu),包括與有問題的脂質(zhì)代謝、炎癥和癌細(xì)胞生長相關(guān)的蛋白質(zhì)。他們還表明,RoseTTAFold 可以用于建立復(fù)雜生物的模型,所需時間只是以前所需時間的一小部分。下圖為使用 RoseTTAFold 的蛋白質(zhì)預(yù)測流程。其中,A 和 B 是從序列信息中預(yù)測大腸桿菌蛋白復(fù)合物的結(jié)構(gòu);C 表示由 RoseTTAFold 生成的 IL-12R/IL-12 復(fù)合結(jié)構(gòu)符合以前發(fā)表的低溫電子顯微鏡(cryo-EM)密度(EMD-21645)。 論文一作、華盛頓大學(xué)博士后研究員 Minkyung Baek 表示:「我們希望這個新工具將造福整個研究領(lǐng)域?!?/span>https://newsroom./news/accurate-protein-structure-prediction-now-accessible-allhttps://www./articles/s41586-021-03819-2 今天兩大團(tuán)隊同時發(fā)布蛋白質(zhì)預(yù)測成果,其中DeepMind如約公布了AlphaFold2的詳細(xì)信息,另一團(tuán)隊的RoseTTaFold也基于同樣的思想,取得了接近AlphaFold2的效果。
|