日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

AlphaFold迎來對手?Meta AI 預測超6億個蛋白結構,僅用2周時間

 子孫滿堂康復師 2022-11-04 發(fā)布于黑龍江

來源:生物世界 2022-11-04 17:45

但首爾國立大學的計算生物學家 Martin Steinegger 表示,他和合作者已經(jīng)使用 AlphaFold 來預測大約3000萬個宏基因組蛋白質的結構。

今年7月,開發(fā) AlphaFold 的 DeepMind 公司宣布,將預測的蛋白質結構數(shù)據(jù)量從100萬個提升到了2.2億個,而且不再僅僅著眼于人類蛋白質,還包括了植物、細菌、動物和其他生物體在內(nèi)的各種物種的蛋白質結構。這幾乎還改了DNA數(shù)據(jù)庫中所有已知的蛋白質。

蛋白質結構的數(shù)量(紫色小圓表示實驗所得的蛋白質結構數(shù)據(jù)量,淺藍色中圓表示早期AlphaFold數(shù)據(jù)庫中的數(shù)據(jù)量,藍色大圓表示現(xiàn)在AlphaFold數(shù)據(jù)庫中的數(shù)據(jù)量)  圖片來源:deepmind.com

而現(xiàn)在,另一個科技巨頭 Meta(也就是之前的Facebook)正在填補蛋白質宇宙中的暗物質。

Meta 的研究人員使用人工智能(AI)預測了超過6億種蛋白質的結構,這些蛋白質來自細菌、病毒和其他尚未被表征的微生物。

ESM宏基因組圖譜數(shù)據(jù)庫包含6.17億個蛋白質的結構預測

Meta AI 蛋白質團隊使用“大型語言模型”生成了這些結構預測,并于11月1日在預印本發(fā)表論文【1】,描述了這一成果。

Meta AI蛋白質團隊的研究負責人 Alexander Rives 表示,這些來自土壤、海洋和人體的微生物中的蛋白是我們所知最少的結構,這些蛋白質非常神秘,能夠為我們深入了解生物學提供潛力。

“大型語言模型”一種人工智能(AI)模型,可以從幾個字母或單詞預測文本,通常語言模型是在大量文本的基礎上進行訓練的。為了將其應用到蛋白質結構預測上,研究團隊用已知的蛋白質序列進行序列,這些蛋白質由20個不同的氨基酸組成表示,每個氨基酸用一個字母表示。然后,該模型學會了在模糊氨基酸比例的情況下“自動補全”蛋白質序列。

蛋白質序列“自動補全”

Alexander Rives 表示,這種訓練使模型對蛋白質序列有了直觀的理解,而蛋白質序列包含了蛋白質結構形狀的信息。受到 DeepMind 開創(chuàng)性的蛋白質結構工具 AlphaFold的啟發(fā),將這種洞察力與已知蛋白質結構和序列之間關系的信息結合起來,從蛋白質序列生成預測結構。然后,該模型學會了在模糊氨基酸比例的情況下“自動補全”蛋白質。

Meta 的研究團隊在今年夏天發(fā)布的一項報告中表示,其開發(fā)的蛋白質結構預測工具 ESMFold 的準確性不如 AlphaFold,但在速度方面要快60倍左右,這意味著可以將結構預測擴展到更大的數(shù)據(jù)庫中。

作為一個測試案例,他們決定將這一預測模型應用于一個大序列DNA數(shù)據(jù)庫“宏基因組”,這些DNA數(shù)據(jù)來自環(huán)境之中,包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。絕大多數(shù)編碼潛在蛋白質的DNA序列來自從未被培養(yǎng)過的生物,也不為科學所知。

Meta 的團隊總共預測了超過6.17億個蛋白質的結構。這項工作只花了兩周時間。

Alexander Rives 表示,這一預測模型是免費的,任何人都可以使用,就像模型的底層代碼一樣。

在這6.17億個預測的蛋白質結構中,該模型認為超過三分之一的預測是高質量的,因此研究人員可以確信蛋白質的整體結構是正確的,在某些情況下,還可以識別更精細的原子級的細節(jié)。其中數(shù)大量結構都是全新的,與實驗確定的蛋白質結構數(shù)據(jù)庫或從已知生物中預測的 AlphaFold 數(shù)據(jù)庫中的任何東西都不同。

首爾國立大學的計算生物學家 Martin Steinegger 表示,AlphaFold 數(shù)據(jù)庫的很大一部分是由彼此幾乎相同的結構組成的,而“宏基因組”數(shù)據(jù)庫應該涵蓋以前從未見過的蛋白質宇宙的很大一部分,這是一個很大的機會來揭開更多的黑暗中的蛋白質。

但哈佛大學進化生物學家 Sergey Ovchinnikov 對 ESMFold 的數(shù)億個預測結果表示懷疑,其中有些預測可能缺乏確定的結構,而另一些可能是非編碼DNA,卻被誤認為編碼蛋白質,似乎還有一半以上的蛋白質空間是我們所不知道的。

德國慕尼黑工業(yè)大學的計算生物學家 Burkhard Rost 對 ESMFold 預測的速度和準確性印象深刻。但他也懷疑從宏基因組數(shù)據(jù)庫中預測蛋白質時,它是否真的比 AlphaFold 的精確度更有優(yōu)勢?;谡Z言模型的預測方法,更適合快速確定突變?nèi)绾胃淖兊鞍踪|結構,這是 AlphaFold 無法做到的。他表示,我們將看到結構預測變得更精簡、更簡單、更便宜,這將為新事物打開大門。

DeepMind 的一位代表說,該公司目前沒有計劃在其數(shù)據(jù)庫中包含宏基因組的結構預測,但不排除在未來這樣做的可能性。

但首爾國立大學的計算生物學家 Martin Steinegger 表示,他和合作者已經(jīng)使用 AlphaFold 來預測大約3000萬個宏基因組蛋白質的結構。他們希望從中發(fā)現(xiàn)新的RNA病毒種類。他認為,這類預測工具的下一步顯然是研究生物學中的暗物質。預計我們將很快會在這些宏基因組結構的分析方面出現(xiàn)爆炸式增長。


快速找到人體的各個穴位 <wbr>365篇

快速找到人體的各個穴位 <wbr>365篇

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多