DeepMind去年公布了生物學(xué)界的AlphaGo——AlphaFold,只要知道蛋白質(zhì)的氨基酸序列,就可以預(yù)測(cè)蛋白質(zhì)分子的三維折疊結(jié)構(gòu)。 △AlphaFold預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu) 現(xiàn)在MIT把AI的預(yù)測(cè)能力又推進(jìn)了一步,直接通過(guò)氨基酸序列預(yù)測(cè)蛋白質(zhì)分子的生物學(xué)功能,跳過(guò)AlphaFold預(yù)測(cè)蛋白質(zhì)立體結(jié)構(gòu)的步驟。 他們的論文《Learning protein sequence embeddings using information from structure》將在今年5月的ICLR學(xué)術(shù)會(huì)議上公布。 如何預(yù)測(cè)蛋白質(zhì)功能研究人員先讓模型學(xué)習(xí)一些特定蛋白質(zhì)的功能,將蛋白質(zhì)結(jié)構(gòu)編碼成表示,用不同蛋白質(zhì)結(jié)構(gòu)相似性來(lái)監(jiān)督模型。 他們根據(jù)蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)(SCOP),對(duì)數(shù)千各類別、大約22,000種蛋白質(zhì)進(jìn)行模型訓(xùn)練。然后,將蛋白質(zhì)結(jié)構(gòu)與氨基酸序列編碼成嵌入(embedding)這種數(shù)字表示,隨機(jī)組對(duì)送入模型中。 這種嵌入與NLP中的上下文表示類似,兩種嵌入越相似,單詞出現(xiàn)在同一個(gè)句子中的概率就越大。 像單詞對(duì)語(yǔ)義的影響一樣,氨基酸是蛋白質(zhì)的“單詞”,蛋白質(zhì)就是整個(gè)“句子”,嵌入包含著每個(gè)氨基酸序列與另一個(gè)氨基酸序列的相似性信息,機(jī)器學(xué)習(xí)模型可以根據(jù)嵌入預(yù)測(cè)每個(gè)氨基酸對(duì)整個(gè)蛋白質(zhì)功能的影響。 而且該模型還能預(yù)測(cè)蛋白質(zhì)的接觸圖(contact map),即每個(gè)氨基酸與其他氨基酸之間的距離,與來(lái)自SCOP已知的接觸圖進(jìn)行比較。 這有助于模型更好地了解氨基酸在蛋白質(zhì)結(jié)構(gòu)中的確切位置,從而進(jìn)一步預(yù)測(cè)每種氨基酸對(duì)功能的影響。 總的來(lái)說(shuō),對(duì)于某個(gè)氨基酸序列,該模型將為3D結(jié)構(gòu)中的每個(gè)氨基酸位置產(chǎn)生一個(gè)嵌入表示。機(jī)器學(xué)習(xí)模型根據(jù)這些嵌入,基于接觸圖準(zhǔn)確預(yù)測(cè)每個(gè)氨基酸的功能。 研究人員使用該模型預(yù)測(cè)哪些蛋白質(zhì)可以通過(guò)細(xì)胞膜,所得結(jié)果的準(zhǔn)確性已經(jīng)超過(guò)之前最先進(jìn)的模型。 用于藥物研發(fā)和基因治療蛋白質(zhì)是氨基酸通過(guò)肽鍵組成的線性鏈,卻能折疊成極其復(fù)雜的三維結(jié)構(gòu),其具體的結(jié)構(gòu)取決于氨基酸序列和它們之間的物理相互作用。而這種結(jié)構(gòu)又決定了蛋白質(zhì)的生物學(xué)功能。 盡管人類已經(jīng)研究了幾十年蛋白質(zhì),發(fā)明了很多探測(cè)手段,但是真正能準(zhǔn)確測(cè)量出結(jié)構(gòu)的蛋白質(zhì)只有很小一部分,已經(jīng)的幾百萬(wàn)種蛋白質(zhì)中,我們只知道其中幾萬(wàn)個(gè)的結(jié)構(gòu),研究每個(gè)結(jié)構(gòu)都需要花費(fèi)數(shù)萬(wàn)美元。 過(guò)去我們需要知道蛋白質(zhì)的結(jié)構(gòu)才能研究它的功能,MIT希望利用這項(xiàng)技術(shù)讓預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的研究邊緣化,即使只知道氨基酸序列也能給出蛋白質(zhì)的功能。 所幸的是,知道蛋白質(zhì)的氨基酸序列是一件相對(duì)比較容易的事情,我們只要給DNA分子測(cè)序就能得到。 掌握了蛋白質(zhì)的功能,我們就能知道它會(huì)和藥物發(fā)生怎樣的反應(yīng),幫助我們進(jìn)行藥物研發(fā)。 此外,某些基因突變會(huì)改變蛋白質(zhì)的結(jié)構(gòu),這項(xiàng)工作還可以用于基因組學(xué),來(lái)檢測(cè)破壞蛋白質(zhì)結(jié)構(gòu)的有害突變。 論文地址: 開(kāi)源代碼與數(shù)據(jù)集: 作者系網(wǎng)易新聞·網(wǎng)易號(hào)“各有態(tài)度”簽約作者 — 完 — |
|