2021年9月17日,中科院上海藥物所的蔣華良和鄭明月以及華為健康智能實驗室的喬楠等人在Journal of Medicinal Chemistry雜志發(fā)表文章,對用于從頭藥物設(shè)計的多個生成模型進(jìn)行了總結(jié)和分析。 1.研究背景 新藥研發(fā)是一個復(fù)雜的過程,成本高、風(fēng)險大、周期長。目前有一些化合物及其生物活性的開放可訪問資源,如ChEMBL、PubChem、ChemSpider等,這些數(shù)據(jù)庫的化合物數(shù)量一般都在幾百萬的水平。然而,潛在的類藥化合物的化學(xué)空間要大得多,估計范圍從 1023 到 1060。因此如何更有效地探索如此巨大的空間并尋找具有特殊性質(zhì)的新分子是極具挑戰(zhàn)性的。 隨著計算機(jī)科學(xué)的快速發(fā)展,人工智能(AI)方法在圖像處理、模式識別和自然語言處理等領(lǐng)域取得了成功。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)也被應(yīng)用于藥物發(fā)現(xiàn),例如預(yù)測化合物的性質(zhì)和活性以及它們與蛋白質(zhì)靶標(biāo)的相互作用。近年來,深度生成模型越來越受到關(guān)注,它通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)的概率分布,提取代表性特征,產(chǎn)生低維連續(xù)表示,最終從學(xué)習(xí)到的數(shù)據(jù)分布中采樣生成新數(shù)據(jù)。 生成模型的發(fā)展為解決藥物設(shè)計難題帶來了新的思路。本文專注于生成模型在從頭藥物設(shè)計中的應(yīng)用,首先簡要介紹了常用的生成模型,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、自動編碼器(AE)、生成對抗網(wǎng)絡(luò)(GAN)、Transformer以及深度強(qiáng)化學(xué)習(xí)模型(RL);其次,全面回顧了各種生成模型在藥物設(shè)計中應(yīng)用的最新進(jìn)展,以及評估其性能的基準(zhǔn)和指標(biāo)。最后,本文討論了藥物設(shè)計生成模型的前景。 2.生成模型的原理 生成模型大致分為四類,包括基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、自動編碼器(AE)、生成對抗網(wǎng)絡(luò)(GAN)的模型、transformer以及深度強(qiáng)化學(xué)習(xí)模型(RL)。這些流行的生成模型的基本原理和最近的發(fā)展描述如下。 2.1 基于RNN的生成模型 圖1A展示了RNN的基本網(wǎng)絡(luò)結(jié)構(gòu),其中,通過隱藏層上的環(huán)路連接,當(dāng)前時刻可以接收到前一時刻網(wǎng)絡(luò)的當(dāng)前狀態(tài),并且可以進(jìn)一步得到當(dāng)前時刻的網(wǎng)絡(luò)狀態(tài)傳送到下一時刻。即作為圖 1B 中展開的 RNN,隱藏單元在時間 t 從兩個方面接收數(shù)據(jù),分別是網(wǎng)絡(luò)前一時刻的隱藏單元值 ht?1 和當(dāng)前輸入數(shù)據(jù) xt,通過計算得到兩個輸出隱藏單元的值,輸出向量和更新的隱藏單元,通過時間算法的反向傳播更新網(wǎng)絡(luò)中的參數(shù)。 為了避免 RNN 模型中的“梯度爆炸”和“梯度消失”現(xiàn)象,長短期記憶(LSTM) 單元使用更可控的信息流來確定哪些信息可以保留,哪些可以丟棄,實現(xiàn)了更精細(xì)的內(nèi)部處理,可以保持其內(nèi)部狀態(tài)以延長RNN中順序輸入的時間,從而提高RNN的性能。 進(jìn)一步的研究表明,GRU 是 LSTM 架構(gòu)的簡化實現(xiàn),可以以較低的計算成本緩解梯度消失和爆炸的問題。當(dāng) RNN 模型應(yīng)用于從頭藥物設(shè)計時,分子可以表示為序列(例如使用 SMILES),在用大量的SMILES字符串訓(xùn)練后,RNN模型可以用來生成一個新的、原始數(shù)據(jù)集中不包含的有效SMILES,因此可以認(rèn)為是一個分子結(jié)構(gòu)生成模型。 圖1:RNN的結(jié)構(gòu):(A)RNN的基本網(wǎng)絡(luò)結(jié)構(gòu);(B) 一個展開的 RNN 結(jié)構(gòu);(C) 基本 RNN、LSTM 和 GRU 的內(nèi)部結(jié)構(gòu)。 2.2 基于AE的生成模型 自動編碼器(Autoencoder, AE)由兩個網(wǎng)絡(luò)組成:編碼器將高維數(shù)據(jù)映射到低維表示,解碼器將原始輸入重構(gòu)為給定低維表示的輸出。自動編碼器反復(fù)訓(xùn)練以最小化重構(gòu)輸出與原始輸入之間的偏差,其目標(biāo)是找到更緊湊的樣本表示。變分自動編碼器 (variational autoencoder, VAE) 和對抗自動編碼器 (adversarial autoencoder, AAE) 使用一些附加約束修改AE,以從輸入數(shù)據(jù)中學(xué)習(xí)潛在表示。與AE的目的不同,這些模型旨在學(xué)習(xí)數(shù)據(jù)集的概率分布,從而生成與數(shù)據(jù)集相似但不同的樣本。 圖2比較了VAE和AAE的結(jié)構(gòu)。 圖2:VAE、AAE 的結(jié)構(gòu)及其相應(yīng)的條件生成模型。(A) VAE 的結(jié)構(gòu)。(B) 帶有所有標(biāo)記分子的ContidionalVAE 的結(jié)構(gòu)。(C) ContidionalVAE 的結(jié)構(gòu)與未標(biāo)記分子的預(yù)測因子相結(jié)合。(D) AAE 的結(jié)構(gòu)。(E) 帶有所有標(biāo)記分子的CAAE 的簡化版本。 用于新藥設(shè)計的條件變分自動編碼器(ContidionalVAE)是由半監(jiān)督變分自動編碼器(semisupervised variational autoencoder, SSVAE)衍生而來的。具體地說,引入條件有兩種不同的場景。當(dāng)被視為條件的分子屬性可以直接計算出所有的分子時,這些條件就可以合并到編碼器和解碼器的輸入中(圖2B);在另一個場景中,如果條件不能直接標(biāo)記所有分子,如針對特定目標(biāo)的生物活性,VAE應(yīng)該與預(yù)測器網(wǎng)絡(luò)相結(jié)合來預(yù)測那些未標(biāo)記的分子的性質(zhì),條件向量被認(rèn)為是預(yù)測器的潛在變量(圖2C)。 對抗性自動編碼器(AAE)(圖2D)類似于VAE,但它的特點(diǎn)是在結(jié)構(gòu)中增加了一個判別神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)是從GAN模型衍生而來的。AAE使用帶有鑒別器D的對抗性訓(xùn)練,可以區(qū)分生成器的潛在分布和先驗分布,從而避免使用KL發(fā)散。該模型的編碼器可以看作一個生成器G,G(X)的輸出模仿先驗的任意分布p(Z)來欺騙鑒別器D。同時,訓(xùn)練鑒別器D來區(qū)分來自編碼器的潛在分布和先前的p(Z)。AAE的有條件擴(kuò)展包括有監(jiān)督的AAE和半監(jiān)督的AAE。對于有監(jiān)督的AAE,解碼器從潛伏向量和條件向量重建分子(圖2e)。在半監(jiān)督AAE中,由于需要產(chǎn)生未標(biāo)記分子的條件,因此增加了一個對抗性網(wǎng)絡(luò),以確保后驗分布與預(yù)先定義的分類分布相匹配。 2.3 基于GAN的生成模型 生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)的概念由Goodfellow于 2014 年首次提出,其靈感來自兩人零和博弈的博弈論。GAN包括一個生成器 G 和一個判別器 D(圖 3A)。通常,生成器學(xué)習(xí)將隨機(jī)噪聲映射到需要接近數(shù)據(jù)分布的特定分布,而判別器確定輸入是真實數(shù)據(jù)還是生成器生成的樣本,通常是二元分類器。一旦模型經(jīng)過良好訓(xùn)練,就可以從生成器中獲取新樣本。 圖3:GAN結(jié)構(gòu)(A);CGAN結(jié)構(gòu)(B) 具體來說,在對抗過程中,同時訓(xùn)練generatorG和discriminatorD兩個神經(jīng)網(wǎng)絡(luò)模型,使得D可以找到輸入數(shù)據(jù)中的隱藏模式,準(zhǔn)確區(qū)分真實數(shù)據(jù)和G生成的數(shù)據(jù),G會通過優(yōu)化權(quán)重進(jìn)行迭代矩陣乘法數(shù)據(jù)采樣學(xué)習(xí)欺騙訓(xùn)練有素的D。 總的來說,GAN模型的本質(zhì)是D和G相互競爭的零和游戲。條件生成對抗網(wǎng)絡(luò) (CGAN)是 GAN 的一種變體,它通過在生成器和鑒別器中添加額外信息來調(diào)節(jié)結(jié)果(圖 3B)。 2.4 Transformer模型 Transformer是最近提出的一種新模型,在自然語言處理(NLP)中表現(xiàn)出良好的性能。原始版本的Transformer由encoder和decoder組成(圖4)。 圖4:Transformer結(jié)構(gòu) 這個模型的關(guān)鍵是attention機(jī)制,可以考慮序列中的長程依賴。通過學(xué)習(xí)現(xiàn)有化合物數(shù)據(jù)庫中大量分子的隱含連接規(guī)則來建立生成模型,訓(xùn)練好的模型可根據(jù)給定的起始分子片段結(jié)構(gòu)和自定義的連接段(Linker)約束條件,自動生成大量符合約束條件且結(jié)構(gòu)多樣的分子。 3.生成模型在藥物設(shè)計中的應(yīng)用 3.1 生成化合物并擴(kuò)展化合物庫 有研究者應(yīng)用基于RNN的生成模型來發(fā)現(xiàn)小鼠白血病病毒激酶1(Pim1)和細(xì)胞周期蛋白依賴性激酶4(CDK4)的潛在抑制劑。他們根據(jù)CDK4抑制劑和Pim1抑制劑的隨機(jī)序列對模型進(jìn)行訓(xùn)練,并根據(jù)合成可及性選擇三種分子。這三個分子含有一些難以附著的片段,因此在合成之前進(jìn)一步簡化,從而得到MJ-4、MJ-115和MJ-1055。這些分子證實了對Pim1和CDK4的抑制活性。其中,MJ-1055對Pim1具有較強(qiáng)的抑制活性,IC50值為9.6nm,發(fā)現(xiàn)它與相關(guān)Markush專利中保護(hù)的類似分子不同。相比之下,MJ-4對CDK4的抑制活性較弱,與結(jié)構(gòu)相似的已知抑制劑相比,MJ-115的活性也顯著降低??偟膩碚f,這些結(jié)果很好地支持了基于RNN的生成模型在實際任務(wù)中的適用性和潛力,也表明僅由基于RNN的模型生成的分子可能無法維持所需的活性。 GAN作為一種特殊的生成模型,也被應(yīng)用于基于SMILES的分子生成。GAN在分子生成中的第一個成功應(yīng)用是目標(biāo)增強(qiáng)生成對抗網(wǎng)絡(luò)(ORGANIC)及其改進(jìn)版本,即反設(shè)計化學(xué)目標(biāo)增強(qiáng)生成對抗網(wǎng)絡(luò)(ORGANIC)。Guimares等人提出了一種基于SeqGAN的具有RL的GAN框架,它可以優(yōu)化生成分子的性質(zhì)。總的來說,這些模型可以生成學(xué)習(xí)原始數(shù)據(jù)分布的分子,顯示所需度量的改進(jìn),并保持樣本的多樣性。是化學(xué)方向上的ORGAN的一種實現(xiàn)。 如前所述,ORGANIC 的主要缺點(diǎn)是大量無效分子,有效分子中可能有許多重復(fù)。這可能是由化學(xué)空間的粗糙度引起的,化學(xué)空間的微小變化會對分子結(jié)構(gòu)產(chǎn)生顯著影響。Prykhodko等人將自動編碼器與生成性對抗性神經(jīng)網(wǎng)絡(luò)相結(jié)合,以產(chǎn)生用于從頭分子設(shè)計的新基因。在該模型中,分子的SMILES不直接用于GAN,而是首先通過heterencoder策略轉(zhuǎn)化為潛在載體。這一過程減輕了具有相似結(jié)構(gòu)的分子所造成的復(fù)雜性,這些分子可能具有不同的規(guī)范SMILES,并減少了由同一分子的多個表示所造成的過度擬合問題。 除了AE和GAN的結(jié)合,VAE和GAN的結(jié)合是新提出的,因為這兩種方法是互補(bǔ)的。結(jié)合這兩種方案的模型有兩個優(yōu)點(diǎn)。首先,它可以避免VAE中后驗分布的近似不夠靈活,這可能導(dǎo)致非自然分子甚至無效輸出。其次,它可以避免處理GAN中離散變量的困難,這可能導(dǎo)致低多樣性問題和重復(fù)生成分子。 3.2 條件分子設(shè)計 大多數(shù)分子設(shè)計任務(wù)需要生成滿足特定要求的化合物。除了通過使用諸如微調(diào)、遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等方法來優(yōu)化生成的新分子外,人們還做出了許多努力來修改先前的生成模型,以建立條件生成模型。這類模型直接結(jié)合了分子性質(zhì)信息和分子結(jié)構(gòu)信息,可以指導(dǎo)分子生成到與特定條件相關(guān)的化學(xué)空間的特定區(qū)域。因此,條件分子設(shè)計從條件生成分布中抽取新分子,而無需任何額外的優(yōu)化過程。此外,條件模型可以更容易適應(yīng)同時考慮多個目標(biāo)屬性。 先前有報道提出了一種基于條件變分自動編碼器的分子生成模型(CVAE),該模型可以對潛在空間施加一定的條件,例如添加類藥五原則。在訓(xùn)練期間,這些目標(biāo)屬性被形成為預(yù)定義的條件向量,并與潛在向量連接??梢栽诓桓淖兤渌麉?shù)的情況下調(diào)整LogP,并生成具有超出訓(xùn)練集范圍的特定性質(zhì)的分子。然而,該模型顯示生成所需分子的成功率較低,這可能是由性質(zhì)之間的強(qiáng)相關(guān)性造成的。Kang和Cho等人建立了一個模型,使用半監(jiān)督變分自動編碼器(SSVAE)的回歸版本有條件地生成分子。Hong等人提出了基于ARAE的條件生成模型CARAE,在該模型中,他們采用了變分互信息最小化框架來生成具有特定目標(biāo)性質(zhì)的分子。利用預(yù)測網(wǎng)絡(luò)對原始分子性質(zhì)進(jìn)行預(yù)測,通過最小化變分互信息,將分子性質(zhì)從潛在向量中分離出來。在解碼階段,根據(jù)潛在向量和分離的目標(biāo)屬性信息重構(gòu)分子結(jié)構(gòu)。 由于新冠病毒大流行,Chentamarakshan等人提出了一種稱為受控分子生成(CogMol)的生成模型,通過在VAE模型中引入多屬性受控采樣方案,設(shè)計具有一組期望屬性的靶向新型病毒蛋白的分子。他們使用CogMol為三種SARS-CoV-2靶蛋白、主要蛋白酶、棘突蛋白的受體結(jié)合域和非結(jié)構(gòu)蛋白復(fù)制酶生成新分子,受靶親和力和選擇性、藥物相似性、合成可行性和毒性的限制。結(jié)果表明,生成的分子能夠很好地結(jié)合到靶點(diǎn)結(jié)構(gòu)的相關(guān)口袋中,并顯示出較低的預(yù)測代謝物毒性和較高的合成可行性。 4.生成模型的基準(zhǔn)和指標(biāo) 有兩個主要的新分子設(shè)計基準(zhǔn),即molecular sets(MOSES)和GuacaMol,它們涵蓋了常用的生成模型和評估生成模型性能的各種指標(biāo)。 MOSES主要關(guān)注評估生成分子的分布問題。它針對五個基于神經(jīng)網(wǎng)絡(luò)的基準(zhǔn)模型,即CharRNN、VAE、AAE、JT-VAE和LatentGAN,以及三個非神經(jīng)網(wǎng)絡(luò)的基準(zhǔn),即n-gram生成模型、隱馬爾科夫模型和組合生成器。 在MOSES中,"有效性"、"獨(dú)特性"和 "新穎性"是評價各種模型所生成的分子質(zhì)量的三個最廣泛使用的指標(biāo)。"有效性"描述了生成的分子中能被RDCit識別的SMILES的百分比,"獨(dú)特性"代表了有效分子中非冗余分子的比例,而"新穎性"是生成的分子中不在訓(xùn)練集中的部分。MOSES中使用的其他指標(biāo)見表4。 表4. 分子生成模型的性能指標(biāo)列表 相應(yīng)地,還考慮了這兩個方面的指標(biāo)。對于分布學(xué)習(xí)基準(zhǔn),評估"有效性"、"唯一性"和 "新穎性"這三個通用指標(biāo),"FCD"也被用于GuacaMol中(表4)。此外,"KL分歧"被用來比較訓(xùn)練分子和生成分子的物理化學(xué)描述符的概率分布(表4)。對于目標(biāo)導(dǎo)向的基準(zhǔn),有幾類不同的優(yōu)化目標(biāo),例如重新發(fā)現(xiàn)目標(biāo)分子、生成與目標(biāo)分子相似的分子、生成與目標(biāo)分子式對應(yīng)的異構(gòu)體等。 5.總結(jié) 從頭藥物設(shè)計是一個長周期、高投資的過程。隨著AI的快速發(fā)展,越來越多的相關(guān)方法被提出。研究人員已經(jīng)提出了在其他領(lǐng)域(如圖像或文本生成)成功的不同架構(gòu),以生成具有預(yù)期生物和化學(xué)性質(zhì)的新先導(dǎo)化合物。從這個視角,本文主要總結(jié)了最近報道的生成建模技術(shù),并展示了它們在從頭藥物設(shè)計領(lǐng)域中的應(yīng)用。 盡管已經(jīng)有很多關(guān)于分子生成模型的研究,但生成模型在藥物設(shè)計中的應(yīng)用仍處于起步階段,還有許多挑戰(zhàn)需要進(jìn)一步解決。 為了擴(kuò)展現(xiàn)有化合物庫,出現(xiàn)了許多包含有效和新穎化學(xué)結(jié)構(gòu)的虛擬庫,包括GDB、ZINC、REAL、DrugspaceX等等。這些庫要么由預(yù)定義的基于規(guī)則的轉(zhuǎn)換生成,要么由數(shù)學(xué)圖生成。已經(jīng)有一些通過虛擬篩選從這些化合物庫中成功發(fā)現(xiàn)新活性配體的例子。深度生成模型的一個明顯的優(yōu)勢是它可以訓(xùn)練學(xué)習(xí)分子表征和相關(guān)性質(zhì)的聯(lián)合概率分布,這使我們能夠更有效地對滿足特定性質(zhì)的新分子進(jìn)行取樣。有一些報道的工作試圖探索化學(xué)空間,以獲得滿足分子某些物理化學(xué)性質(zhì)的分子,這是一個需要進(jìn)一步探索的新興方向。 在生成模型的分子表征方面,許多人致力于研究分子拓?fù)鋱D,但由于使用的數(shù)據(jù)集和指標(biāo)不同,他們的表現(xiàn)往往缺乏可比性。隨著方法的改進(jìn),不同生成模型之間的比較將變得更加規(guī)范和客觀。此外,一些研究正在嘗試添加有關(guān)三維化學(xué)結(jié)構(gòu)的信息,旨在更準(zhǔn)確地描述分子的結(jié)構(gòu),從而使模型生成的分子更可靠,便于進(jìn)一步研究。 目前廣泛用于生成模型的性能指標(biāo)也需要改進(jìn)。常用的“可成藥性”和“可合成性”指標(biāo)也有其自身的問題。因此,盡管提供了不同的生成模型的評估和比較指標(biāo),但這些指標(biāo)對不同研究的作用和重要性仍不清楚。如何評估模型的質(zhì)量和生成的分子仍然是一個懸而未決的問題,這需要共同努力以更好地改進(jìn)基準(zhǔn)評估方法并評估已發(fā)布的生成模型的能力。 現(xiàn)有研究的另一個明顯缺點(diǎn)是缺乏實驗驗證。雖然已經(jīng)有很多關(guān)于使用生成模型生成新化合物的報道,但生成的化合物被合成和實驗評估的例子較少。Zhavoronkov 等使用分子 GENTRL 在 21 天內(nèi)發(fā)現(xiàn)有效的 DDR1 抑制劑。他們在不到2個月的時間內(nèi)設(shè)計、合成并實驗驗證了靶向DDR1激酶的分子,最終獲得了在實驗動物中具有良好藥代動力學(xué)特性的候選藥物。這個成功案例說明了快速藥物設(shè)計生成模型的可行性,但我們也需要謹(jǐn)慎,因為生成的分子仍處于藥物開發(fā)的早期階段,可能需要進(jìn)一步評估其在人體中的有效性和安全性。此外,在將生成模型應(yīng)用于藥物設(shè)計時,需要嚴(yán)格評估生成分子的新穎性。 總的來說,我們才剛剛開始使用生成模型來設(shè)計分子,這種模型還有很多方面需要進(jìn)一步改進(jìn),需要更多的計算和實驗驗證以及基準(zhǔn)測試。盡管如此,我們相信它會在不久的將來成為從頭藥物設(shè)計領(lǐng)域的重要支柱,幫助藥物化學(xué)家產(chǎn)生新的想法并加速藥物發(fā)現(xiàn)的周期。 參考資料 Xiaochu Tong, Xiaohong Liu, Xiaoqin Tan, Xutong Li, Jiaxin Jiang, Zhaoping Xiong, Tingyang Xu, Hualiang Jiang, Nan Qiao, and Mingyue Zheng , Generative Models for De Novo Drug Design , Journal of Medicinal Chemistry. https:///10.1021/acs.jmedchem.1c00927 |
|