將 ScienceAI 設(shè)為星標(biāo) 第一時間掌握 新鮮的 AI for Science 資訊 ![]() 人工智能有可能在進(jìn)化的規(guī)模上開啟對蛋白質(zhì)結(jié)構(gòu)的洞察力。直到 2022 年才有可能將蛋白質(zhì)結(jié)構(gòu)預(yù)測擴(kuò)展到 2 億個編目蛋白質(zhì)。對大規(guī)?;驕y序?qū)嶒灲沂镜某手笖?shù)增長的數(shù)十億蛋白質(zhì)序列的結(jié)構(gòu)進(jìn)行表征,需要在折疊速度上取得突破。 在這里,Meta AI 團(tuán)隊和紐約大學(xué)的研究人員展示了,使用大型語言模型從主序列直接推斷結(jié)構(gòu),可以在高分辨率結(jié)構(gòu)預(yù)測中實現(xiàn)一個數(shù)量級的加速。 利用語言模型在數(shù)百萬序列中學(xué)習(xí)進(jìn)化模式的洞察力,該團(tuán)隊訓(xùn)練了多達(dá) 15B 個參數(shù)的模型,這是迄今為止最大的蛋白質(zhì)語言模型。隨著語言模型的縮放,它們學(xué)習(xí)的信息能夠以單個原子的分辨率預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。這導(dǎo)致預(yù)測速度比最先進(jìn)的技術(shù)快 60 倍,同時保持分辨率和準(zhǔn)確性。 在此基礎(chǔ)上,研究人員提出了 ESM Metage-nomic Atlas。這是宏基因組蛋白質(zhì)的首次大規(guī)模結(jié)構(gòu)表征,具有超過 6.17 億個結(jié)構(gòu)。該圖譜揭示了超過 2.25 億個高置信度預(yù)測,其中數(shù)百萬個預(yù)測的結(jié)構(gòu)與實驗確定的結(jié)構(gòu)相比是新穎的,從而以前所未有的視角了解地球上一些最不為人知的蛋白質(zhì)結(jié)構(gòu)的廣度和多樣性。 該研究以「Evolutionary-scale prediction of atomic level protein structure with a language model」為題,于 2023 年 3 月 16 日發(fā)布在《Science》。 語言模型從進(jìn)化入手研究蛋白質(zhì)序列 進(jìn)化規(guī)模的蛋白質(zhì)序列包含生物結(jié)構(gòu)和功能的圖像。這是因為蛋白質(zhì)的生物學(xué)特性限制了其序列的突變,這些突變是通過進(jìn)化選擇的,將結(jié)構(gòu)和功能記錄到進(jìn)化模式中。在一個蛋白質(zhì)家族中,可以從序列模式中推斷出結(jié)構(gòu)和功能。從經(jīng)典方法開始,通過引入深度學(xué)習(xí),直到目前最先進(jìn)的技術(shù),這種洞察力一直是計算結(jié)構(gòu)預(yù)測進(jìn)展的核心。 生物結(jié)構(gòu)和功能反映在蛋白質(zhì)序列模式中的想法,也激發(fā)了對進(jìn)化尺度語言模型的新研究。從香農(nóng)的文本熵模型開始,已經(jīng)開發(fā)出越來越復(fù)雜的語言模型來適應(yīng)文本的統(tǒng)計,最終導(dǎo)致現(xiàn)代大規(guī)?;谧⒁饬Φ捏w系結(jié)構(gòu)。在數(shù)百萬種不同蛋白質(zhì)的氨基酸序列上訓(xùn)練的語言模型,有可能學(xué)習(xí)所有這些蛋白質(zhì)的模式。這個想法與從蛋白質(zhì)序列推斷的標(biāo)準(zhǔn)基礎(chǔ)形成對比,后者是從總結(jié)相關(guān)蛋白質(zhì)進(jìn)化模式的多序列比對開始。 在人工智能中,文本的語言模型,盡管它們的訓(xùn)練目標(biāo)很簡單,例如填充缺失的單詞或預(yù)測下一個單詞,但顯示出可以開發(fā)與文本的潛在含義相關(guān)的新興能力。這些能力隨著規(guī)模的變化而發(fā)展,隨著計算、數(shù)據(jù)和參數(shù)數(shù)量的增加,能力會越來越強(qiáng)。包含數(shù)百至數(shù)千億個參數(shù)的現(xiàn)代語言模型開發(fā)了諸如小樣本語言翻譯、常識推理和數(shù)學(xué)問題解決等能力,所有這些都沒有明確的監(jiān)督。這些觀察提出了一種可能性,即在蛋白質(zhì)序列上訓(xùn)練的語言模型可能會表現(xiàn)出一種平行的出現(xiàn)形式。 圖:將語言模型擴(kuò)展到 150 億個參數(shù)時出現(xiàn)結(jié)構(gòu)。(來源:論文) 研究人員假設(shè),在整個進(jìn)化過程中填補蛋白質(zhì)序列中缺失的氨基酸的任務(wù),將需要一個語言模型來學(xué)習(xí)一些關(guān)于在序列中創(chuàng)建模式的底層結(jié)構(gòu)。隨著語言模型的表示能力和訓(xùn)練中看到的蛋白質(zhì)序列的多樣性增加,科學(xué)家預(yù)計有關(guān)蛋白質(zhì)序列生物學(xué)特性的深層信息可能會出現(xiàn),因為這些特性會產(chǎn)生在序列中觀察到的模式。 將參數(shù)擴(kuò)展到 150 億 為了研究這種涌現(xiàn),研究人員將語言模型從 800 萬個參數(shù)擴(kuò)展到 150 億個參數(shù)??茖W(xué)家發(fā)現(xiàn)原子分辨率結(jié)構(gòu)預(yù)測在參數(shù)尺度的四個數(shù)量級上出現(xiàn)并在語言模型中繼續(xù)改進(jìn)。語言模型對蛋白質(zhì)序列的理解(困惑度)與結(jié)構(gòu)預(yù)測的準(zhǔn)確性之間的強(qiáng)相關(guān)性揭示了語言建模與結(jié)構(gòu)學(xué)習(xí)之間的密切聯(lián)系。 Meta AI 團(tuán)隊和紐約大學(xué)的研究人員展示了,語言模型可以直接從序列中進(jìn)行快速的端到端原子分辨率結(jié)構(gòu)預(yù)測。新方法利用語言模型捕獲的進(jìn)化模式,來產(chǎn)生準(zhǔn)確的原子級預(yù)測。這消除了當(dāng)前最先進(jìn)的結(jié)構(gòu)預(yù)測管道的昂貴方面,消除了對多序列比對的需要,同時大大簡化了用于推理的神經(jīng)架構(gòu)。這導(dǎo)致僅推理前向傳遞的速度提高了 60 倍,同時還完全刪除了相關(guān)蛋白質(zhì)的搜索過程,使用 AlphaFold 和 RosettaFold 使用的高靈敏度管道可能需要 10 多分鐘,即使使用新的靈敏度較低的快速管道,這也是計算成本的重要組成部分。在實踐中,這意味著使用的最先進(jìn)的預(yù)測管道的加速高達(dá)一到兩個數(shù)量級。 這使得將結(jié)構(gòu)預(yù)測擴(kuò)展到宏基因組蛋白成為可能。在過去的十年中,人們努力通過宏基因組采樣將蛋白質(zhì)序列的知識擴(kuò)展到地球上巨大的微生物自然多樣性。這些努力導(dǎo)致蛋白質(zhì)序列數(shù)據(jù)庫的規(guī)模呈指數(shù)增長,現(xiàn)在包含數(shù)十億種蛋白質(zhì)。雖然最近已經(jīng)完成了人類蛋白質(zhì)組中約 20K 蛋白質(zhì)和 Uniprot 約 200M 編目蛋白質(zhì)的計算結(jié)構(gòu)表征,但龐大的宏基因組蛋白質(zhì)對結(jié)構(gòu)表征提出了更大的挑戰(zhàn)。宏基因組結(jié)構(gòu)的范圍和多樣性是未知的,是生物學(xué)知識的前沿,也是醫(yī)學(xué)和生物技術(shù)新發(fā)現(xiàn)的潛在來源。 該團(tuán)隊展示了宏基因組資源的第一個進(jìn)化尺度結(jié)構(gòu)特征,折疊了 MGnify90 中的幾乎所有序列,超過 617M 蛋白質(zhì)。他們能夠在 2 周內(nèi)在包含 2,000 個 GPU 的異構(gòu)集群上完成此表征,展示了對更大數(shù)據(jù)庫的可擴(kuò)展性。對超過225M個結(jié)構(gòu)進(jìn)行了高置信預(yù)測,揭示并表征了宏基因組空間中遠(yuǎn)離現(xiàn)有知識的區(qū)域,絕大多數(shù)(76.8%)高置信預(yù)測與UniRef90至少有90%的序列同一性,數(shù)千萬(12.6%)預(yù)測與實驗確定的結(jié)構(gòu)不匹配。這些結(jié)果第一次大規(guī)模地展示了宏基因組蛋白質(zhì)結(jié)構(gòu)的廣泛性和多樣性。 在蛋白質(zhì)序列訓(xùn)練的語言模型中出現(xiàn)原子分辨率結(jié)構(gòu) 該團(tuán)隊首先研究高分辨率蛋白質(zhì)結(jié)構(gòu)的出現(xiàn)。他們在 800 萬個參數(shù)到 150 億個參數(shù)的范圍內(nèi)訓(xùn)練了一個新的 transformer 蛋白語言模型家族 ESM-2。相對于上一代模型 ESM-1b,ESM-2 引入了架構(gòu)、訓(xùn)練參數(shù)方面的改進(jìn),并增加了計算資源和數(shù)據(jù)。由此產(chǎn)生的 ESM-2 模型系列在相當(dāng)數(shù)量的參數(shù)下顯著優(yōu)于先前最先進(jìn)的 ESM-1b(約 6.5 億參數(shù)模型),并且在結(jié)構(gòu)預(yù)測基準(zhǔn)上它也優(yōu)于其他最近的蛋白質(zhì)語言模型。 ESM-2 語言模型使用掩碼語言建模目標(biāo)進(jìn)行訓(xùn)練,該目標(biāo)訓(xùn)練模型通過觀察序列其余部分的上下文,來預(yù)測蛋白質(zhì)序列中隨機(jī)選擇的氨基酸的身份。這會使模型學(xué)習(xí)氨基酸之間的依賴關(guān)系。盡管訓(xùn)練目標(biāo)本身很簡單且不受監(jiān)督,但要在數(shù)百萬進(jìn)化不同的蛋白質(zhì)序列上完成這項任務(wù),需要模型在整個進(jìn)化過程中內(nèi)化序列模式。 研究人員希望這種訓(xùn)練也能使結(jié)構(gòu)具體化,因為它與序列模式相關(guān)聯(lián)。ESM-2 是根據(jù) UniRef 蛋白質(zhì)序列數(shù)據(jù)庫中的序列進(jìn)行訓(xùn)練的。在訓(xùn)練期間,從約 1.38 億個 UniRef90 序列中對約 4300 萬個 UniRef50 訓(xùn)練集群進(jìn)行均勻加權(quán)的序列采樣,以便在訓(xùn)練過程中模型看到約 6500 萬個獨特序列。 當(dāng)將 ESM-2 的規(guī)模從 800 萬個參數(shù)增加到 150 億個參數(shù)時,研究人員觀察到其蛋白質(zhì)序列建模的保真度有了很大的提高。這種保真度可以使用困惑度來衡量,其范圍從 1(完美模型)到 20(隨機(jī)預(yù)測模型)。直觀上,困惑度描述了模型為每個預(yù)測選擇的氨基酸數(shù)量。 這種訓(xùn)練還導(dǎo)致模型中出現(xiàn)結(jié)構(gòu)。由于 ESM-2 的訓(xùn)練僅針對序列,因此任何關(guān)于結(jié)構(gòu)發(fā)展的信息都必須是表示序列模式的結(jié)果。已知使用掩碼語言建模訓(xùn)練的 Transformer 模型會開發(fā)與蛋白質(zhì)的殘基接觸圖相對應(yīng)的注意力模式。 該團(tuán)隊研究了這種蛋白質(zhì)結(jié)構(gòu)的低分辨率圖片是如何作為比例函數(shù)出現(xiàn)的。研究人員使用線性投影從語言模型的注意力模式中提取接觸圖。頂部 L(蛋白質(zhì)的長度)預(yù)測接觸的精度(長距離接觸精度)測量注意模式與蛋白質(zhì)結(jié)構(gòu)的對應(yīng)性。 注意力模式在 ESM-2 中發(fā)展,對應(yīng)于三級結(jié)構(gòu),縮放導(dǎo)致對結(jié)構(gòu)的理解有很大的改進(jìn)。預(yù)測接觸的準(zhǔn)確性隨訓(xùn)練集中進(jìn)化相關(guān)序列的數(shù)量而變化。訓(xùn)練集中具有更多相關(guān)序列的蛋白質(zhì)在模型規(guī)模方面具有更陡峭的學(xué)習(xí)軌跡。這意味著對具有高進(jìn)化深度的序列的改進(jìn)在較低的模型尺度下飽和,而對具有低進(jìn)化深度的序列的改進(jìn)隨著模型規(guī)模的增加而繼續(xù)。 對于單個蛋白質(zhì),經(jīng)??梢杂^察到作為比例函數(shù)的接觸預(yù)測準(zhǔn)確性的非線性改進(jìn)。語言建模目標(biāo)與注意力圖中折疊結(jié)構(gòu)的具體化直接相關(guān)。 為了識別模型中的原子分辨率信息,研究人員使用等變 transformer 從語言模型的內(nèi)部表示中投影出每個原子的空間坐標(biāo)。該預(yù)測適合使用來自 PDB 的實驗確定的蛋白質(zhì)結(jié)構(gòu),并在 194 種 CAMEO 蛋白質(zhì)和 51 種 CASP14 蛋白質(zhì)上進(jìn)行評估。TM-score 的范圍從 0 到 1,衡量投影與真實結(jié)構(gòu)相比的準(zhǔn)確性,值為 0.5 對應(yīng)于正確預(yù)測折疊的閾值。評估使用時間截止,確保用于測試的蛋白質(zhì)與用于擬合投影的蛋白質(zhì)分開。這使得可以測量原子級信息如何作為參數(shù)尺度的函數(shù)出現(xiàn)在表示中。 研究發(fā)現(xiàn),可以從 ESM-2 語言模型的表示中預(yù)測原子分辨率結(jié)構(gòu)預(yù)測。該投影的準(zhǔn)確性隨著語言模型的規(guī)模而提高。150 億參數(shù)模型在 CAMEO 測試集上的 TM 分?jǐn)?shù)達(dá)到 0.72,在 CASP14 測試集上達(dá)到 0.55,相對于 1.5 億參數(shù)的 ESM-2 模型分別提高了 14% 和 17%。 在每次規(guī)模增加時,蛋白質(zhì)子集的準(zhǔn)確性都會發(fā)生很大變化。例如,當(dāng)參數(shù)規(guī)模從 35M 增加到 150M 時,蛋白質(zhì) 7QQA 的 RMSD 從 7.0 提高到 3.2,而當(dāng)參數(shù)規(guī)模從 3B 增加到 15B 時,CASP 目標(biāo) T1056 的 RMSD 從 4.0 提高到 2.6。在這些跳躍前后,RMSD 的變化要小得多。 在所有模型中,驗證困惑度與 CASP14 TM-score 之間的相關(guān)性為 -0.99,驗證困惑度與 CAMEO TM-score 之間的相關(guān)性為 -1.00,表明對通過困惑度測量的序列的理解與原子分辨率結(jié)構(gòu)預(yù)測之間存在很強(qiáng)的聯(lián)系。此外,可以從注意力圖中提取的結(jié)構(gòu)的低分辨率圖片與原子分辨率預(yù)測之間存在很強(qiáng)的相關(guān)性(遠(yuǎn)程接觸精度和 CASP14 TM-score 之間為 0.96,遠(yuǎn)程接觸精度和 CAMEO TM-score 之間為 0.99)。這些發(fā)現(xiàn)將語言建模的改進(jìn)與低分辨率(接觸圖)和高分辨率(原子級)結(jié)構(gòu)信息的增加聯(lián)系起來。 使用語言模型加速準(zhǔn)確的原子分辨率結(jié)構(gòu)預(yù)測 語言模型極大地加速了最先進(jìn)的高分辨率結(jié)構(gòu)預(yù)測。語言模型內(nèi)化了與結(jié)構(gòu)相關(guān)的進(jìn)化模式,消除了對外部進(jìn)化數(shù)據(jù)庫、多序列比對和模板的需求。研究人員發(fā)現(xiàn) ESM-2 語言模型可以直接從主要蛋白質(zhì)序列生成最先進(jìn)的三維結(jié)構(gòu)預(yù)測。這導(dǎo)致結(jié)構(gòu)預(yù)測的速度提高超過一個數(shù)量級,同時保持高分辨率精度。 通過為 ESM-2 訓(xùn)練折疊頭來開發(fā) ESMFold,這是一個完全端到端的單序列結(jié)構(gòu)預(yù)測器。在預(yù)測時,蛋白質(zhì)序列被輸入到 ESM-2。該序列通過語言模型的前饋層進(jìn)行處理,并將模型的內(nèi)部狀態(tài)(表示)傳遞給折疊頭。頭部以一系列折疊塊開始。每個折疊塊在更新序列表示和成對表示之間交替。這些塊的輸出被傳遞到等變 transformer 結(jié)構(gòu)模塊,并在輸出最終原子級結(jié)構(gòu)和預(yù)測置信度之前執(zhí)行三個循環(huán)步驟。 與當(dāng)前最先進(jìn)的結(jié)構(gòu)預(yù)測模型相比,該架構(gòu)實現(xiàn)了重大簡化,后者通過跨 MSA 的行和列運行的注意力機(jī)制將多序列比對深度集成到神經(jīng)網(wǎng)絡(luò)架構(gòu)中。該方法顯著提高了預(yù)測速度。在單個 NVIDIA V100 GPU 上,ESMFold 在 14.2 秒內(nèi)對具有 384 個殘基的蛋白質(zhì)進(jìn)行預(yù)測,比單個 AlphaFold2 模型快 6 倍。在較短的序列上,改進(jìn)最多可達(dá) 60 倍。使用已發(fā)布版本的 AlphaFold 和 RosettaFold 使用的高靈敏度協(xié)議,構(gòu)建 MSA 所需的相關(guān)序列搜索過程可能需要 10 分鐘以上;這可以減少到不到 1 分鐘,盡管靈敏度會降低。 圖:使用 ESMFold 進(jìn)行單序列結(jié)構(gòu)預(yù)測。(來源:論文) 該團(tuán)隊在約 25K 個簇上訓(xùn)練折疊頭,該簇覆蓋了來自 PDB 的總共約 325K 個通過實驗確定的結(jié)構(gòu),并進(jìn)一步增加了用 AlphaFold2 預(yù)測的約 12M 個結(jié)構(gòu)的數(shù)據(jù)集。該模型使用與 AlphaFold 相同的損失進(jìn)行訓(xùn)練。 為了評估結(jié)構(gòu)預(yù)測的準(zhǔn)確性,研究人員使用在 2020 年 5 月截止日期之前從訓(xùn)練數(shù)據(jù)中提取的測試集;因此,評估中使用的所有結(jié)構(gòu)都從訓(xùn)練中剔除,并且評估代表了在常規(guī)使用中預(yù)期的性能,作為實驗者選擇用于表征的結(jié)構(gòu)類型的預(yù)測模型。這也使得與 AlphaFold 和 RosettaFold 進(jìn)行比較成為可能,因為這些模型也沒有接受過 2020 年 5 月之后沉積的結(jié)構(gòu)的訓(xùn)練。這里使用了兩個測試集:CAMEO 測試集包含 194 個用于正在進(jìn)行的 CAMEO 評估的結(jié)構(gòu);CASP14 測試集由 51 個公開發(fā)布的結(jié)構(gòu)組成,這些結(jié)構(gòu)因其難度而被選為一年兩次的結(jié)構(gòu)預(yù)測競賽。 研究人員將這些評估集的結(jié)果與 AlphaFold2 和 RosettaFold 進(jìn)行比較。ESMFold 在 CAMEO 上的平均 TM-score 為 0.83,在 CASP14 上的平均 TM-score 為 0.68。使用與 AlphaFold2 一起發(fā)布的搜索協(xié)議,包括 MSA 和模板,AlphaFold2 在 CAMEO 和 CASP14 上分別達(dá)到 0.88 和 0.85。 ESMFold 在 CAMEO 上與 RosettaFold 實現(xiàn)了競爭精度,平均 TM-score 為 0.82。當(dāng)通過消融多序列比對在單個序列上評估 AlphaFold2 和 RosettaFold 時,性能大幅下降,遠(yuǎn)低于 ESMFold。 另外,這是一個人工設(shè)置,因為 AlphaFold2 尚未針對單個序列進(jìn)行明確訓(xùn)練,但它最近在蛋白質(zhì)設(shè)計中變得很重要,這些模型已與單序列輸入一起用于從頭蛋白質(zhì)設(shè)計。 由于語言模型是 ESMFold 的關(guān)鍵組成部分,研究人員測試了語言模型對序列的理解差異與結(jié)構(gòu)預(yù)測準(zhǔn)確性變化的對應(yīng)關(guān)系。ESMFold 在兩個測試集上的性能與語言模型的困惑度密切相關(guān)。在 CAMEO 測試集上,語言模型的困惑度與預(yù)測結(jié)構(gòu)和實驗結(jié)構(gòu)之間的 TM-score 的 Pearson 相關(guān)性為 -0.55;在 CASP14 上,相關(guān)性為 -0.67。困惑度與結(jié)構(gòu)預(yù)測之間的關(guān)系表明,改進(jìn)語言模型是提高單序列結(jié)構(gòu)預(yù)測準(zhǔn)確性的關(guān)鍵,這與縮放分析的觀察結(jié)果一致。此外,這意味著語言模型對序列的困惑度可用于預(yù)測 ESMFold 結(jié)構(gòu)預(yù)測的質(zhì)量。 消融研究表明,語言模型表示對 ESMFold 性能至關(guān)重要。對于 8 塊折疊塊,CAMEO 測試集的性能為 0.74 LDDT(基線)。如果沒有語言模型,這會大大降低到 0.58 LDDT。當(dāng)完全移除折疊樹干時(即僅使用語言模型和結(jié)構(gòu)模塊),性能會下降到 0.66 LDDT。其他消融:結(jié)構(gòu)模塊只有 1 個塊,關(guān)閉回收,不使用 AlphaFold2 預(yù)測結(jié)構(gòu)作為蒸餾目標(biāo),或者不使用三角更新,導(dǎo)致小的性能下降(LDDT 從 -0.01 到 -0.04 的變化)。 ESMFold 提供最先進(jìn)的結(jié)構(gòu)預(yù)測準(zhǔn)確性,在超過一半的蛋白質(zhì)上與 AlphaFold2 性能相匹配(< 0.05 LDDT 差異)。即使在一些大蛋白上也是如此——T1076 是一個 TM-score 為 0.98 且有 540 個殘基的例子。ESMFold 和 AlphaFold 之間準(zhǔn)確度較低的結(jié)構(gòu)部分沒有顯著差異,這表明語言模型正在學(xué)習(xí)類似于 MSA 中包含的信息。并且,ESMFold 能夠很好地預(yù)測同源和異源二聚體蛋白質(zhì)復(fù)合物的成分。在與存放在 PDB 中的 2,978 個近期多聚體復(fù)合物的數(shù)據(jù)集上與 AlphaFold-Multimer 進(jìn)行比較時,ESMFold 對 53.2% 的鏈對實現(xiàn)了相同的定性 DockQ 分類,盡管沒有接受蛋白質(zhì)復(fù)合物的訓(xùn)練。 圖:ESMFold 和 AlphaFold-Multimer 在 recent-PDB-multimers 數(shù)據(jù)集上的比較。(來源:論文) 信心是用準(zhǔn)確度很好地校準(zhǔn)的。ESMFold 以預(yù)測的 LDDT 形式報告置信度。這種置信度與預(yù)測的準(zhǔn)確性密切相關(guān),對于高置信度預(yù)測 (pLDDT > 0.7),準(zhǔn)確性與 AlphaFold2 相當(dāng)(ESMFold LDDT=0.83,AlphaFold2 LDDT=0.85 on CAMEO)。高置信度預(yù)測接近實驗級精度。在 CAMEO 測試集上,ESMFold 預(yù)測的全原子 RMSD95 中位數(shù)(95% 殘基覆蓋率下的均方根偏差)為 1.91 ?,骨干 RMSD95 為 1.33 ?。當(dāng)置信度非常高時 (pLDDT > 0.9),預(yù)測的全原子 RMSD95 中位數(shù)為 1.42 ?,骨架 RMSD95 為 0.94 ?。這意味著置信度可用于預(yù)測給定結(jié)構(gòu)預(yù)測與真實結(jié)構(gòu)匹配的可能性(要通過實驗確定)。 宏基因組學(xué)的進(jìn)化尺度結(jié)構(gòu)表征 這種快速和高分辨率的結(jié)構(gòu)預(yù)測能力使大型宏基因組序列資源的第一個全面結(jié)構(gòu)表征成為可能。研究人員從 MGnify90 數(shù)據(jù)庫中折疊了超過 6.17 億個序列。這是長度為 20 到 1024 的整個序列,涵蓋了 MGnify90 中所有序列的 99%。 總體而言,這種大規(guī)模表征產(chǎn)生了約 3.65 億個具有良好置信度的預(yù)測(平均 pLDDT > 0.5 和 pTM > 0.5),對應(yīng)于數(shù)據(jù)庫的約 59%,以及約 2.25 億個具有高置信度的預(yù)測(平均 pLDDT > 0.7 和 pTM > 0.7),對應(yīng)于約 36% 的折疊結(jié)構(gòu)。該團(tuán)隊能夠在 2 周內(nèi)在大約 2,000 個 GPU 的集群上完成預(yù)測。 結(jié)語 早期模型在許多任務(wù)上的表現(xiàn)甚至無法與簡單的進(jìn)化特征相媲美。對 ESM-1b 和 ProtTrans 等最先進(jìn)的進(jìn)化比例模型的分析表明,可以從表示中恢復(fù)低分辨率結(jié)構(gòu),即二級結(jié)構(gòu)和接觸圖。 進(jìn)化尺度模型也被證明可以執(zhí)行突變效應(yīng)的無監(jiān)督預(yù)測,并且最近被用于最先進(jìn)的應(yīng)用,例如預(yù)測病毒進(jìn)化的路徑和基因變異的臨床意義。幾個大型模型現(xiàn)在可以作為開源使用。語言模型已經(jīng)被研究用于骨干結(jié)構(gòu)的端到端單序列預(yù)測。 快速準(zhǔn)確的計算結(jié)構(gòu)預(yù)測,有可能加速邁向一個可以理解基因測序?qū)嶒炛邪l(fā)現(xiàn)的所有蛋白質(zhì)結(jié)構(gòu)的時代。這有望對蛋白質(zhì)的巨大自然多樣性產(chǎn)生新的見解,其中大部分是在宏基因組測序中新發(fā)現(xiàn)的。 為此,該團(tuán)隊完成了宏基因組蛋白的首次大規(guī)模結(jié)構(gòu)表征。這種表征揭示了數(shù)億種以前未知的蛋白質(zhì)的結(jié)構(gòu),與實驗確定的結(jié)構(gòu)相比,其中數(shù)百萬種蛋白質(zhì)是新的。 隨著結(jié)構(gòu)預(yù)測繼續(xù)擴(kuò)大到更多的蛋白質(zhì),模型的校準(zhǔn)將成為一個關(guān)鍵因素,因為當(dāng)預(yù)測的吞吐量受到限制時,預(yù)測的準(zhǔn)確性和速度形成了可以生成的準(zhǔn)確預(yù)測數(shù)量的聯(lián)合邊界。宏基因組圖譜中非常高置信度的預(yù)測通常是可靠的,分辨率足以洞察類似于實驗確定的結(jié)構(gòu),例如活性位點的生物化學(xué);對于更多可以可靠地預(yù)測拓?fù)浣Y(jié)構(gòu)的蛋白質(zhì),可以通過遠(yuǎn)程結(jié)構(gòu)關(guān)系獲得對功能的洞察力,而這些關(guān)系無法通過序列檢測到。 語言模型中原子級結(jié)構(gòu)的出現(xiàn)揭示了蛋白質(zhì)結(jié)構(gòu)的高分辨率圖片,該圖片通過進(jìn)化編碼成跨越數(shù)百萬蛋白質(zhì)的序列模式,增加了無監(jiān)督訓(xùn)練目標(biāo)具體化蛋白質(zhì)生物學(xué)深層信息的證據(jù)。ESM-2 是該團(tuán)隊多年來專注于生物特性出現(xiàn)的工作成果,并且是語言模型首次被證明可以捕獲高分辨率的結(jié)構(gòu)圖片。目前的模型在參數(shù)、序列數(shù)據(jù)和原則上可以應(yīng)用的計算方面遠(yuǎn)遠(yuǎn)沒有達(dá)到規(guī)模限制。研究人員樂觀地認(rèn)為,隨著繼續(xù)擴(kuò)大規(guī)模,將會有更多的出現(xiàn)。該團(tuán)隊的結(jié)果表明低深度蛋白質(zhì)建模的改進(jìn)指向了這個方向。 ESM-2 帶來了速度的提高,實際上提高了一到兩個數(shù)量級,這使得更多的序列能夠準(zhǔn)確預(yù)測原子級結(jié)構(gòu)。在實際時間尺度內(nèi)獲得數(shù)億個預(yù)測結(jié)構(gòu),有助于揭示對天然蛋白質(zhì)的廣度和多樣性的新見解,并加速新蛋白質(zhì)結(jié)構(gòu)和功能的發(fā)現(xiàn)。 圖譜資料:https:// 論文鏈接:https://www./content/10.1101/2022.07.20.500902v3.abstract |
|