日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Wires Comput Mol Sci|分子發(fā)現(xiàn)的生成模型:最新進展和挑戰(zhàn)

 智藥邦 2022-06-17 發(fā)布于上海

2022年3月5日,麻省理工學院化學工程系的Klavs F. Jensen等人在Wires Comput Mol Sci (影響因子25.113) 雜志發(fā)表文章,概述了分子發(fā)現(xiàn)生成模型的最新進展和挑戰(zhàn)。主要內容整理和編譯如下。

摘要

傳統(tǒng)的分子設計包括利用人類的專業(yè)知識來提出、合成和測試新的分子,這個過程可能是成本和時間密集型的,限制了可以合理測試的分子的數(shù)量。生成模型通過將分子設計重新表述為一個逆向設計問題,為分子發(fā)現(xiàn)提供了另一種方法。在這里,我們回顧了生成性分子設計的最新進展,并討論了將這些模型整合到實際的分子發(fā)現(xiàn)活動中的注意事項。

我們首先回顧了開發(fā)和訓練生成模型所需的模型設計選擇,包括分子的常見一維、二維和三維表征以及典型的生成式建模神經(jīng)網(wǎng)絡架構。然后,我們描述了分子發(fā)現(xiàn)應用的不同問題,并探討了用于評估基于這些問題陳述的模型的基準。最后,我們討論了在將生成模型整合到實驗工作流程中起作用的重要因素。

1 引言

傳統(tǒng)的藥物發(fā)現(xiàn)是成本和時間密集型的,限制了可以合理探索的分子的數(shù)量和多樣性?,F(xiàn)在迫切需要開發(fā)能夠有效探索化學空間的方法,以確定能夠解決化學和工程領域重要問題的分子。

生成模型提供了一個有希望的解決方案。生成模型不是利用人類的專業(yè)知識來設計分子,而是利用深度學習的最新進展來解決逆向分子設計問題:給定一組所需的特性,什么是能滿足這些特性的分子集?通過識別將一組性質映射到一組結構的函數(shù),生成模型可以快速識別出為特定應用高度優(yōu)化的各種分子集。

自從它們最近被引入以來,應用于分子設計的生成模型的數(shù)量和種類都在激增。這些模型在其分子表現(xiàn)形式、結構和它們所解決的分子設計問題的類型上各不相同。此外,為了便于在越來越多的模型之間進行比較,最近人們提出了一些基準,根據(jù)分布學習、化學多樣性和新穎性等因素對模型進行評估。

盡管有了這些顯著的進步,但應用生成模型來發(fā)現(xiàn)具體應用中的分子的例子相對較少。大多數(shù)研究集中在優(yōu)化分子的計算指標,如logP(分配系數(shù)的對數(shù))或QED11(藥物可能性的定量估計),很少有已發(fā)表的研究涉及實驗測試所確定的先導分子。

在這篇綜述中,我們簡明扼要地總結了生成性分子設計技術的最新進展,描述了將這些模型整合到實際分子發(fā)現(xiàn)活動中的考慮因素,并討論了為充分實現(xiàn)其承諾而必須解決的其余挑戰(zhàn)。

2 背景

2.1 分子的表征

神經(jīng)網(wǎng)絡的優(yōu)勢在于它們能夠接受復雜的輸入表征,將其轉化為解決特定任務所需的潛在表征。這樣一來,輸入表征的選擇在管理模型如何學習分子信息方面起著關鍵作用。輸入表征通常分為三類:(1)一維(如基于字符串的表征),(2)二維(如分子圖),以及(3)三維表征(如基于坐標)。

一維表征法

最常見的一維表征法被稱為SMILES,這是一種簡單的基于字符串的表征法,根據(jù)預定的原子排序規(guī)則將分子轉化為一串字符。將分子表征為一個字符序列已被證明是有利的,因為它可以重新應用以前為語言處理開發(fā)的神經(jīng)網(wǎng)絡架構。特別是,通過將分子表征為序列,先前的工作將遞歸神經(jīng)網(wǎng)絡訓練為生成模型,生成分子的SMILES字符串。

不幸的是,這些方法容易產生無效的SMILES,無法轉換為分子結構,因為它們忽略了SMILES符號的復雜語法。為了補救這個問題,Kusner等人和Dai等人用SMILES語法的語法約束增強了循環(huán)神經(jīng)網(wǎng)絡。然而,這些方法仍然不能捕捉到化學有效性,并且經(jīng)常產生無效的SMILES字符串。鑒于SMILES符號的復雜性,Krenn等人設計了一種改進的字符串表征法,稱為SELFIES(Self-Referencing Embedded Strings)?;赟ELFIES表征,可以訓練遞歸神經(jīng)網(wǎng)絡模型生成100%有效的分子。

二維表征法

分子也可以在神經(jīng)網(wǎng)絡中被表征為圖形,其節(jié)點和邊分別對應于原子和鍵。圖形表征的強大之處在于它們直接捕捉原子之間的連接性,而在一維表征中,這一信息必須由模型來推斷。不幸的是,事實證明圖形比序列更難生成,因此,有許多努力旨在開發(fā)神經(jīng)網(wǎng)絡架構以生成真實的分子圖。

一種策略是通過同時輸出原子和圖的鄰接矩陣來生成分子圖。相比之下,You、Li、Samanta和Liu等人開發(fā)了生成模型,按順序逐個原子解碼分子。Jin等人采取了一個相關的方法,將原子分組為子結構,并開發(fā)了一個模型,按子結構(也是按順序)生成分子。這些子結構包括由一個鍵連接的兩個原子或一個環(huán)中的所有原子(例如,一個苯環(huán))。他們的模型首先生成了一個以子結構為節(jié)點的連接樹,然后預測子結構應該如何相互連接。Jin等人后來將這種方法擴展到一個分層模型,允許使用更大的子結構。他們的模型在多個分子生成任務中的表現(xiàn)優(yōu)于逐個原子的方法。

三維表征法

最后,分子可以用點云來表征--每個原子對應空間中的一個點--以便不僅捕捉共價原子的連接性,而且捕捉分子的構象偏好信息。例如,Gebauer等人通過將原子置于笛卡爾坐標中,按順序生成分子。

將這些方法用于分子發(fā)現(xiàn)應用的一個缺點是,為了準確地捕捉物理特性,有必要考慮一個特定分子的一個以上的構象體。這些方法的第二個缺點是,它們通常使用能量最小化的力場來生成訓練集中的分子構象,這可能很耗時,特別是對于大的、靈活的分子。最近,研究人員探討了用三維生成模型取代/補充傳統(tǒng)的構象生成方法,這些模型是在構象組合的大數(shù)據(jù)集上訓練的,可以用來減少獲得三維訓練數(shù)據(jù)的計算費用。

2.2 模型結構

一個特定的深度神經(jīng)網(wǎng)絡的成功在很大程度上取決于它的結構--構成網(wǎng)絡的層的類型和這些層的排列方式。用于分子發(fā)現(xiàn)的深度生成模型可以分成三類神經(jīng)網(wǎng)絡架構:變分自編碼器(VAEs)、生成對抗網(wǎng)絡(GANs)和歸一化流模型,如圖1所示。

圖1 生成式建模中使用的主要神經(jīng)網(wǎng)絡架構的比較。變分自編碼器(VAEs,頂部)、生成對抗網(wǎng)絡(GANs,中間)和歸一化流模型(底部)。

每種架構在學習分子的潛在表征時使用的策略不同。VAEs和歸一化流模型的目標都是使訓練數(shù)據(jù)的可能性最大化。VAEs使用變異推理技術近似地使可能性最大化,而歸一化流模型通過要求模型是可逆的而使可能性完全最大化。相比之下,基于GAN的方法將分子生成表述為一個最小化的游戲,其中一個鑒別器模型學習區(qū)分真實數(shù)據(jù)和由生成器模型產生的虛假樣本。這里我們將簡要介紹這些方法是如何工作的,以及它們被用于分子發(fā)現(xiàn)應用的方式。

變分自編碼器

變分自編碼器(VAE)是一種生成模型,包括一個編碼器,它學習將分子映射到一個連續(xù)的嵌入中,然后是一個解碼器,它學習從學到的嵌入中重建一個分子。VAEs使用由兩個項組成的損失函數(shù)進行訓練:(1)一個重建損失,迫使解碼器從其嵌入中恢復正確的分子;(2)一個Kullback-Leibler(KL)發(fā)散項,使所學分子嵌入的分布規(guī)律化,從而使生成的分子分布與訓練分布非常相似。在分子生成方面,VAEs已經(jīng)被用來生成SMILES字符串和分子圖。

生成式對抗網(wǎng)絡

生成式對抗網(wǎng)絡是一種生成模型,由一個生成器和一個辨別器組成,生成器負責學習從高斯噪聲中生成分子,辨別器負責學習識別分子是真實的(屬于訓練數(shù)據(jù)集)還是假的(由生成器構建)。這兩個網(wǎng)絡被訓練成相互競爭,生成器學習生成足夠真實的分子來欺騙辨別器,而辨別器則學習區(qū)分。GANs已經(jīng)成功地生成了高度逼真的圖像,部分原因是對抗性訓練使模型能夠學習一個更細微的定義,即什么使一個例子變得逼真,而不是通過VAEs的損失函數(shù)來獲得。

然而,使用GANs生成序列和圖形仍然具有挑戰(zhàn)性,因為構建序列和圖形需要通過離散的選擇進行梯度反向傳播。

歸一化流模型

歸一化流模型通過學習先驗分布(如高斯分布)和現(xiàn)實世界的高維數(shù)據(jù)(如分子)之間的一系列可逆變換來生成分子。與VAE相比,基于流的模型的主要優(yōu)勢在于可逆映射允許計算精確的數(shù)據(jù)似然。這一優(yōu)勢促使Zang、Shi和Madhawa等人將基于流的模型應用于分子生成。

其他

除了這三個主要的生成模型類別外,研究人員還探索了其他類型的模型,用于與分子設計密切相關的任務。例如,基于擴散的模型已經(jīng)被應用于分子構象的生成、基于反應的分子設計模型被用來生成易于合成的分子。

2.3 分子生成問題的分類

人們可能對發(fā)現(xiàn)新分子感興趣的原因有很多。將生成模型應用于分子生成的第一步是將這些不同的應用表述為具體的問題陳述,例如,我們對發(fā)現(xiàn)具有X性質的分子感興趣,但要遵守Y的約束。大體上,分子生成的問題陳述分為三類:(1)無約束的分子生成,(2)性質約束的分子生成,以及(3)結構約束的分子生成。

無約束的分子生成

無約束分子生成的目標是在沒有任何性質約束(除了化學有效性)的情況下生成多樣化的新分子。這對探索性的分子生成活動很有價值,因為這些活動的重點是識別有趣和不尋常的化學成分。對于這類問題,生成模型的目的是學習分子在化學空間中的一般分布(例如,分子通常是什么樣子的?) 為了學習這種廣泛的分布,生成模型通常要在大型的化合物數(shù)據(jù)庫(如ChEMBL和ZINC)中進行訓練,無約束生成模型通常根據(jù)生成化合物的化學有效性、新穎性和獨特性進行評估。

性質約束的分子生成

性質約束的分子生成通過增加對生成分子的約束來擴展前面的表述。在這種情況下,一個模型所生成的化合物必須在化學上是有效的,并具有特定的、理想的性質,如良好的溶解性、低毒性或高效力。由于對每個生成的化合物進行實驗驗證是不可行的,因此有必要訓練一個特性預測器來評估化合物特性,也被稱為定量結構-活性關系(QSAR)模型。性質預測器是在一個單獨的分子數(shù)據(jù)集上訓練的,該數(shù)據(jù)集上標有它們的性質(例如,效力的IC50/EC50)。訓練結束后,性質預測器被用來估計生成的分子是否滿足給定的約束條件。

通過這種方式,生成模型學習生成通過性質預測器預測為滿足約束條件的化合物。這項任務通常被認為是一個離散的優(yōu)化問題,可以通過強化學習、貝葉斯優(yōu)化或遺傳算法來解決。在強化學習中,一個模型被訓練來最大化基于性質預測器輸出的預期獎勵。

另外,貝葉斯優(yōu)化方法可以用來通過學習分子的連續(xù)嵌入將離散優(yōu)化問題變成連續(xù)優(yōu)化問題。這些方法包括首先訓練一個變分自編碼器,將離散的分子映射到一個連續(xù)的嵌入空間,然后訓練另一個神經(jīng)網(wǎng)絡,從其連續(xù)嵌入向量中預測原始分子的化學性質。然后,在連續(xù)嵌入空間中應用貝葉斯優(yōu)化,以找到一個具有最佳相關性質得分的嵌入。發(fā)現(xiàn)的嵌入被解碼器網(wǎng)絡解碼成一個離散的分子。

最后,遺傳算法通過分子的突變尋找有利的化合物來解決離散的優(yōu)化問題。

結構約束的分子生成

結構受限分子生成的目標是修改候選分子的結構,以改善其特性。這種方法對分子生成活動很有用,在這種活動中,具有理想特性的候選分子已經(jīng)被確定,目標是探索密切相關的分子。在制藥行業(yè),這個過程類似于lead優(yōu)化。結構受限優(yōu)化的一個例子是Jin等人在2019年和2020年發(fā)表的工作,該工作將lead優(yōu)化制定為一個圖到圖的翻譯問題,其中模型學會將輸入分子翻譯成改進分子。該模型是在一個分子對的數(shù)據(jù)集上訓練的,每個分子對包含兩個類似的分子,其中一個比另一個不理想。在測試時,翻譯模型學會生成具有更好特性的給定分子的類似物。

另一個結構受限的分子生成策略是限制輸出分子包含一個特定的骨架或片段。Langevin等人和Li等人建立了生成模型,輸出具有特定骨架的藥物分子。這些骨架通常是從具有良好生物特性的現(xiàn)有藥物中提取的。Jin、Podda、Imrie和Green等人也開發(fā)了類似的模型,學習生成具有特定片段的分子。

2.4 用于分子設計的生成模型的基準

大量的具有各種網(wǎng)絡結構的生成模型已經(jīng)被公布,用于分子生成。為了嚴格確定一個模型是否比另一個好或差,有必要制定基準指標,對在公開的數(shù)據(jù)集上訓練的模型進行評估。正如不同類型的分子生成問題聲明所證明的那樣,生成模型有各種不同的目標,因此,有必要使用能代表這些目標的基準衡量標準。

最近的兩個基準集,MOSES和Guacamol,為無約束的分子生成和面向目標的分子生成(包括性質約束和結構約束的分子生成,如表1所示)定義了這種指標。值得注意的是,雖然這些基準對比較生成性建模方法很有用,但它們并沒有涵蓋分子發(fā)現(xiàn)的所有必要方面。

表1 常見的生成性建?;鶞屎退鼈兊亩x

無約束的分子生成基準

無約束分子生成的目標是生成(1)有效和獨特的分子,(2)基于與訓練集相匹配的化學分布,以及(3)新穎和多樣化的分子。

分子的有效性通常是使用RDCit的分子結構解析器在價位和鍵方面進行測量。一個更嚴格的有效性指標被定義為通過一組給定的基于規(guī)則的過濾器的分子的百分比,如Walters的rd_filters實現(xiàn),該過濾器集包括啟發(fā)式規(guī)則,如最大環(huán)大小。使用基于規(guī)則的過濾器的一個注意事項是,它們通常是根據(jù)現(xiàn)實的分子來定義的,可能會錯過生成模型產生的不尋常的功能團。一個模型產生的化學分布可以根據(jù)KL分歧來衡量?;瘜W分布也可以通過比較訓練集和測試集中常見的分子性質如分子量或logP的分布來評估。生成的分子的多樣性可以通過新穎性指標、片段和骨架相似性(分別使用BRICS片段和Bemis-Murckolead)或Frechet ChemNet Distance來衡量。

目標導向的分子生成基準

使用目標導向的生成模型,目的是發(fā)現(xiàn)具有特定性質的分子。為了測試模型以簡單和可重復的方式生成具有特定性質的分子的能力,Guacamol提出了基于相似性、重新發(fā)現(xiàn)、異構體識別和中位分子生成的基準。

相似性基準的目標是生成與從訓練集中刪除的目標分子相似的分子。重新發(fā)現(xiàn)基準與相似性有關,目標是重新發(fā)現(xiàn)被從訓練集中刪除的分子。異構體基準涉及到生成遵循一個簡單模式的分子(這是一個先驗的未知模式)。最后,中位數(shù)分子發(fā)現(xiàn)基準的目標是生成與多個分子相似度最高的分子。

此外,可以很容易通過計算測量的特性,如logP或QED,通常被用作額外的、以目標為導向的基準。值得注意的是,許多這些基準的開發(fā)或選擇是為了快速和可重復地測量模型性能。因此,目標(最明顯的是logP的最大化)是高度人為的,與任何實際應用沒有密切關系。

3 為特定應用產生分子的實際考慮

如上一節(jié)所述,各種生成模型已經(jīng)在理論上和計算上得到了發(fā)展和探索。盡管如此,在實際的分子發(fā)現(xiàn)活動中使用生成模型的例子仍然比較少。這是因為這些活動往往有一系列額外的障礙,使得直接部署生成模型的具體應用變得困難。

在這一節(jié)中,我們將討論這些障礙,特別是關注(1)真實分子設計問題的多目標性,(2)所發(fā)現(xiàn)的分子必須是可合成的,以及(3)與容易出錯的預測模型有關的挑戰(zhàn)。

3.1 真實的分子設計問題通常具有多目標的性質

在應用環(huán)境中,我們經(jīng)常有興趣發(fā)現(xiàn)在一種或多種特性方面比任何先前已知的分子更優(yōu)化的分子。除了這些特性之外,通常還有一些額外的目標或約束條件,這些目標或約束條件對于主要的設計目標來說是次要的,但對于分子在特定的應用中的作用來說同樣是必要的。

當把生成性模型應用于真實的分子發(fā)現(xiàn)情景時,考慮如何捕捉相關的次要目標是至關重要的。常見的次要目標包括毒性、穩(wěn)定性(通常與溫度、光線和/或時間有關)、相行為、可溶性或腐蝕性。

在生成性分子設計中,有兩類方法可以用來考慮多目標:顯式多目標優(yōu)化和結構引導的多目標優(yōu)化,如圖2所示。

圖2 單一目標、顯式多目標和結構引導的多目標優(yōu)化的比較。顯式多目標優(yōu)化涉及結合多個目標(彩色)以獲得一個目標函數(shù),而結構指導優(yōu)化涉及通過限制搜索空間來隱含考慮次要目標(灰色)。

顯式多目標優(yōu)化

明確的多目標優(yōu)化包括明確地定義和優(yōu)化與應用相關的每一個性質。這通常是通過使用單獨的預測模型或評估器來考慮每個特性,并通過結合這些特性的目標函數(shù)進行優(yōu)化。另外,如果該特性可以歸因于分子中的特定骨架,則可以通過將相關骨架納入生成程序來優(yōu)化分子。通過明確定義每個目標,用戶可以直接控制每個目標的相對重要性,使這種方法可以很容易地適應不同的應用。

然而,這種方法的一個挑戰(zhàn)是,它需要一種自動的方式來預測或獲得每一個相關的性質,而不需要人工干預。這對于具有較小的公共數(shù)據(jù)集的性質來說可能會成為問題,如毒性或相位行為,對于這些性質來說,訓練高精度的預測模型可能是不可行的。此外,對于難以定義的性質,也很難訓練預測模型。

為了說明這一點,請考慮這樣的情況:我們想以自動的方式評估一個分子的合成是否可行。雖然使用計算機輔助合成計劃(CASP)簡單地確定是否可以為該分子找到合成途徑似乎是一個很好的方法,但這種策略并沒有考慮到可能會形成多少副產品,以及描述或分離這些副產品可能有多困難。這樣一來,全面評估合成的可行性需要考慮多種因素的復雜組合,因此很難以自動化的方式進行預測。

結構引導的多目標優(yōu)化

結構引導的多目標優(yōu)化利用結構約束隱含地保持一些性質不變。如前所述,這可以通過基于候選物或基于骨架的優(yōu)化來實現(xiàn),其中先前確定的具有理想特性的起始候選分子或骨架在一個或多個額外特性方面得到改進。在前面描述的藥物設計問題中,我們可能從一個可溶的、容易合成的但只有中等療效的候選分子開始。在這種情況下,我們可以訓練生成模型,以提高藥物的療效,同時保持其他每個理想的特性。

與明確的多目標優(yōu)化不同,用戶不需要定義每個次要目標,這使得考慮難以定義的目標變得很直接。這種隱式多目標優(yōu)化也可以通過簡單地將化學空間的探索限制在與訓練中使用的分子相似的分子上來完成,盡管這確實限制了生成分子的多樣性。

3.2 使用生成模型設計的分子必須是可合成的

在生成性模型問題中考慮可合成性的最直接的方法是將其明確地作為一個額外的目標。如前所述,這需要一個自動的方法來評估可合成性,而無需人工干預。雖然CASP工具(預測給定分子的合成途徑)可以用來近似地評估,但它們往往計算成本太高,不能直接用于明確的優(yōu)化。相反,人們提出了一些分數(shù),以自動方式快速評估合成能力。如Ertl和Schuffenhauer提出的合成可及性 (SA) 評分、Coley等人提出的合成復雜性 (SC) 得分、Thakkar等人最近提出了逆向合成可及性 (RA評分等。

這樣,目前開發(fā)的每一個分數(shù)都能捕捉到合成可行性的一些(但不是全部)方面。它們對指導使用生成模型的分子發(fā)現(xiàn)很有用,但仍可能導致一些合成上不可行的分子。

將可合成性作為次要目標的一個替代方法是使用生成模型,將CASP工具直接整合到生成過程中。例如,Bradshaw等人不是簡單地生成單個分子圖,而是生成合成途徑,然后使用爬坡算法優(yōu)化最終產品的特定特性。

這類模型的一個注意事項是,它們與CASP模型緊密結合,而CASP模型只能近似地預測逆向合成途徑,因此,CASP模型的任何限制也會出現(xiàn)在生成模型中。這樣一來,要求分子必須可以通過CASP模型發(fā)現(xiàn),可能會限制生成過程中可獲得的化學成分的多樣性。

3.3 生成模型的工作流程依賴于確定性有限的預測性模型

如前所述,生成模型依靠預測模型來優(yōu)化分子的特定性質。這些預測模型的準確性受到訓練數(shù)據(jù)集的大小和準確性的限制。對于訓練數(shù)據(jù)來自模擬或實驗的特性,訓練數(shù)據(jù)可能包含噪音和/或偏見,使模型無法學習真正的結構-特性關系。此外,對于訓練數(shù)據(jù)有限的性質,可用的數(shù)據(jù)可能不足以將模型約束在目標函數(shù)附近。這樣一來,考慮生成模型與易出錯的預測模型配對時的行為是很重要的。

處理生成性分子發(fā)現(xiàn)中易出錯的預測模型的最直接的方法是使用貝葉斯優(yōu)化方法。

與此相反,在有些情況下,故意探索預測模型難以理解的化學空間區(qū)域是很有用的。這對于發(fā)現(xiàn)新分子比發(fā)現(xiàn)具有目標特性的分子更重要的應用來說,可能很有價值。此外,這對主動學習的應用特別有價值。在主動學習的環(huán)境中,開發(fā)一個生成模型是很有價值的,它故意提出預測不佳的分子,可以通過實驗進行測試,并作為訓練數(shù)據(jù),在額外的訓練迭代中改進預測器。

3.4 生成性分子設計的常見應用工作流程

如前所述,在實際的分子發(fā)現(xiàn)活動中,有一些使用生成模型的例子。在實際應用中,最直接的方法是在初始數(shù)據(jù)集上訓練生成器和預測器模型,發(fā)現(xiàn)一個或一組分子,并選擇少量的分子進行實驗測試(圖3,頂部)。

圖3 目前,在實驗應用中,生成模型已被用于人工過濾的單程工作流程中。在未來,我們可能會看到生成模型被整合到閉環(huán)的、自主的發(fā)現(xiàn)管道中。

除了使用生成模型來簡單地發(fā)現(xiàn)分子外,人們還可以使用從有希望的lead中產生的數(shù)據(jù)來重新訓練預測器和生成器模型,從而”閉環(huán)”分子發(fā)現(xiàn)的循環(huán)(圖3,底部)。這種方法對于預測模型在有限的數(shù)據(jù)集上進行訓練的應用很有價值。雖然沒有使用生成模型進行分子實驗閉環(huán)發(fā)現(xiàn)的例子,但Chen和Gu最近說明了這種方法對于計算設計具有理想機械性能的材料的價值。在這一應用中,他們通過使用有限元方法(FEM)這種相對便宜的計算方法來測量材料的特性,從而規(guī)避了合成材料的需要。雖然這種計算方法往往不如實驗方法準確,但它們提供了在模型計算系統(tǒng)上開發(fā)閉環(huán)生成建模方法的機會,這些方法隨后可以轉化為實驗系統(tǒng)。

實現(xiàn)閉環(huán)實驗性分子發(fā)現(xiàn)所需的一個關鍵進展是開發(fā)能夠合成和測試分子的高通量實驗平臺。為此,已經(jīng)開發(fā)了一些平臺,這些平臺在其可以進行的合成和測試操作的靈活性方面各不相同。最終,我們的目標是將這些平臺與機器學習方法結合起來,產生用于分子發(fā)現(xiàn)的自我驅動實驗室。這一進展將需要整合(1)能夠發(fā)現(xiàn)分子的生成模型,(2)能夠預測可行的合成途徑的逆向合成模型,以及(3)能夠靈活地進行合成和測試操作的全自動實驗平臺。雖然這樣的系統(tǒng)還沒有實現(xiàn),但這樣的設想在其他地方也有描述,并可能在不久的將來實現(xiàn)。

4 未來的方向

4.1 基準的未來

與機器學習的許多領域一樣,生成式建模的發(fā)展軌跡歷來被該領域的關鍵基準所左右?,F(xiàn)有的一套基準在引導一波日益強大的分子發(fā)現(xiàn)生成模型方面起到了關鍵作用,促進了諸如生成分子的有效性、獨特性和多樣性等指標的改進。盡管如此,正如其他人所建議的那樣,許多最新的生成模型在這些基準中表現(xiàn)非常好,這表明這些基準不再足以評估哪些模型表現(xiàn)最好。因此,有必要開發(fā)更有意義的基準,以促進生成性模型的發(fā)展,這些模型被設計成更理想地解決真實世界的問題。

與開發(fā)這樣一套基準相關的挑戰(zhàn)之一是,生成性模型的標準很可能因不同的應用而不同。一套理想的基準是包含與各種應用相關的指標,同時也包括與使用生成模型進行分子發(fā)現(xiàn)相關的大多數(shù)障礙。我們希望這套基準將包括諸如合成可行性、安全和處理、不確定性量化等因素,以及與在實際應用中部署生成模型有關的其他考慮。

4.2 表征法的未來

在過去的幾年里,能夠從二維分子圖和三維點云中學習的生成模型有了許多發(fā)展。這些進展很有價值,因為它們使生成模型能夠在信息更豐富的表征上進行學習,這些表征包含了更多關于分子基礎物理學的信息。大多數(shù)二維和三維生成模型是自動回歸的,這意味著它們以一種有序的方式生成圖形或點云。由于分子在本質上是無序的,在原子之間強加規(guī)范排序的模型會給生成模型帶來額外的偏見,可能會限制其性能。此外,大多數(shù)表征法都是為小分子開發(fā)的,不能輕易用于描述大分子或手性分子。最后,利用二維和三維表征的生成模型在訓練時比簡單的模型計算成本更高,使它們更難擴展到更大的分子和/或更大的數(shù)據(jù)集。

4.3 最后的想法

在過去的十年里,用于分子發(fā)現(xiàn)的深度生成模型已經(jīng)發(fā)展成為一個成熟的領域。生成式建模作為發(fā)現(xiàn)能夠解決許多全球危機的新型化學物質的自動化方法,具有很大的前景。雖然生成式建模要充分發(fā)揮其潛力還需要許多進展,但我們預計目前的挑戰(zhàn)將在未來幾年得到解決。

參考資料

https://wires.onlinelibrary./doi/full/10.1002/wcms.1608

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章