2022年9月13日,哈爾濱醫(yī)科大學(xué)藥物基因組信息學(xué)教研室陳秀杰教授、哈爾濱醫(yī)科大學(xué)生物信息科學(xué)與技術(shù)學(xué)院解洪波副教授團(tuán)隊(duì)在期刊Drug Discovery Today上發(fā)表論文“Concepts and applications of chemical ?ngerprint for hit and lead screening”。
論文中,作者總結(jié)了8類分子指紋,并介紹了分子指紋在虛擬篩選等8種下游任務(wù)中的應(yīng)用。本文對計(jì)算藥物研發(fā)選擇合適的分子指紋提供了良好的總結(jié)和指南。分子指紋(Molecular ?ngerprints)可以低計(jì)算成本的方式表示大規(guī)?;瘜W(xué)數(shù)據(jù)集中化合物的化學(xué)(結(jié)構(gòu)、物理化學(xué)等)性質(zhì)。它們在將化學(xué)數(shù)據(jù)集中的分子轉(zhuǎn)換為適合于計(jì)算方法的一致輸入格式(bit向量或數(shù)值)方面發(fā)揮著重要作用。在這篇綜述中,作者將常見和最先進(jìn)的分子指紋歸納并分類為8種不同類型(基于字典的、圓形的(circular)、拓?fù)涞?、藥效團(tuán)的(pharmacophore)、蛋白質(zhì)-配體相互作用的、基于形狀的、強(qiáng)化的和多種的)。作者還強(qiáng)調(diào)了分子指紋在早期藥物研發(fā)中的應(yīng)用。因此,本綜述為藥物研發(fā)使用合適的化合物(或配體-蛋白質(zhì)復(fù)合物)指紋的選擇提供了指南。化學(xué)指紋或描述符最初用于表示分子的結(jié)構(gòu)特征,在計(jì)算方法中,它是將分子結(jié)構(gòu)與物理化學(xué)性質(zhì)和生物活性聯(lián)系起來的橋梁。隨著化學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科之間的壁壘被打破,各種類型的分子表示方法應(yīng)運(yùn)而生。在構(gòu)效關(guān)系研究中,分子的子結(jié)構(gòu)單元或物理化學(xué)性質(zhì)被稱為“描述符”。化學(xué)結(jié)構(gòu)表示可以捕捉從0D到4D的不同性質(zhì)的化合物。隨著對快速子結(jié)構(gòu)搜索和機(jī)理分析的需求日益增長,代表化學(xué)分子局部結(jié)構(gòu)特征和物理化學(xué)性質(zhì)的指紋已迅速發(fā)展。
指紋(或描述符)可以提取適合作為機(jī)器學(xué)習(xí)和QSAR模型輸入的結(jié)構(gòu)信息以及物理化學(xué)性質(zhì)和生物活性,是能將化學(xué)分子轉(zhuǎn)換為一致形式的數(shù)字或向量表示的一種有力工具。一個通用的分子指紋或描述符通常具有以下特征: 1.能夠表示分子的局部結(jié)構(gòu)(即能夠表示每個原子及其最近鄰居);2.能夠組合并有效且簡單地表示分子結(jié)構(gòu)或物理化學(xué)性質(zhì);3.能夠從編碼的指紋中高效、簡單地解碼為分子結(jié)構(gòu);指紋算法簡單而快速地將化學(xué)結(jié)構(gòu)或性質(zhì)轉(zhuǎn)換為高度壓縮的表示,這有效地加速了虛擬篩選過程。化學(xué)表示的選擇直接影響高通量篩選(high-throughput screening, HTS)方法的準(zhǔn)確性和應(yīng)用范圍。不同類型的指紋在不同的要求和背景數(shù)據(jù)集下具有不同的性能。作者對常見分子指紋進(jìn)行了分類,并簡要總結(jié)了每種分子指紋能夠捕獲的結(jié)構(gòu)和物理化學(xué)特征,并為如何根據(jù)特定研究要求選擇化合物(或配體-蛋白質(zhì)復(fù)合物)的合理分子指紋表示提供了建議。傳統(tǒng)和最先進(jìn)分子指紋的8種類型和應(yīng)用概述如圖1所示。 基于字典的分子指紋(Dictionary-based (structural keys) ?ngerprints):表示為長度為的向量,每個位置為1或0,1表示該分子存在預(yù)定義的某種官能團(tuán)(functional groups)、子結(jié)構(gòu)基序(substructure motifs)、片段(fragments),0則表示該分子不存在預(yù)定義的這種官能團(tuán)、子結(jié)構(gòu)模體、片段。常見的基于字典的指紋類型有:(1) PubChem (PC) ?ngerprints, (2) Molecular ACCess System (MACCS), (3) Mini FingerPrint (MFP), (4) Barnard Chemistry Information (BCI) ?ngerprints, (5) SMIles FingerPrint (SMIFP).圓形分子指紋(Circular ?ngerprints),早在1965年就以Morgan算法的形式首次提出。與基于字典的指紋不同,圓形指紋通常會捕獲新的片段。圓形指紋產(chǎn)生單個、獨(dú)立的結(jié)構(gòu)片段,這些片段呈圓形。圓形指紋算法通常以分子中的每一個非氫原子或分子片段為中心,并根據(jù)其特定的預(yù)定義規(guī)則將分子片段迭代地?cái)U(kuò)展到其鄰居,直到分子的所有片段都被枚舉(或直到迭代次數(shù)達(dá)到自定義數(shù)量)。 常見的圓形指紋類型有:(1) extended connectivity ?ngerprints (ECFPs), (2) functional-class ?ngerprints (FCFPs), (3) Molprint2D and Molprint3D.拓?fù)?基于路徑)的分子指紋:Topological (path-based) ?ngerprints. 化學(xué)拓?fù)湫再|(zhì)來源于化學(xué)圖,數(shù)學(xué)上表示為,其中,是節(jié)點(diǎn)(原子)集合,為邊(化學(xué)鍵)集合。2D分子結(jié)構(gòu)通常基于其拓?fù)湫再|(zhì)表示,例如2D連接表,它是MOL和SDF的化合物格式的基本單元(圖2)。化合物的常見拓?fù)湫再|(zhì)包括:(1) 原子類型;(2) 每個非氫原子(鄰接矩陣)的連接性(或度);(3) 每對原子的拓?fù)渚嚯x(距離矩陣);(4) 原子離心率(atom eccentricity);(4) 通過特定方法確定的化學(xué)鍵和原子的重量(weights of bonds and atoms by speci?ed custom approaches)。化合物的片段(或子結(jié)構(gòu))和物理化學(xué)性質(zhì)是分類和預(yù)測生物活性的重要基礎(chǔ)。
常見的拓?fù)渲讣y類型有:(1) atom pairs (APs), (2) topological torsion (TT), (3) Daylight ?ngerprints. 圖2 以苯甲醛(benzaldehyde)為例,將化學(xué)分子轉(zhuǎn)化為2D連接表。(a) 標(biāo)記每個非氫的原子。(b) 標(biāo)記二維連接表的第一列和第一行中的原子標(biāo)簽。(c) 苯甲醛的2D連接表。表中的數(shù)字表示原子之間的鍵類型。藥效團(tuán)分子指紋:Pharmacophore ?ngerprints. 在過去幾十年,藥效團(tuán)建模一直是藥物研發(fā)的一種關(guān)鍵和成功的方法,并且對分子表示和復(fù)雜生物系統(tǒng)分析具有重要影響。3D藥效團(tuán)是在3D空間中排列的藥物-受體相互作用中觀察到的一組化學(xué)或功能相互作用特征,如氫鍵、電荷轉(zhuǎn)移、靜電和疏水相互作用。這些特征代表有機(jī)配體與大分子受體的基本相互作用信息?;谒幚韺W(xué)表示的分子指紋預(yù)期有助于表示配體-受體非共價結(jié)合的功能或特征。常見的藥效團(tuán)指紋類型有:(1) PharmPrint (3-point PP), (2) 4-point PP.蛋白質(zhì)-配體相互作用分子指紋(Protein–ligand interaction ?ngerprints, PLIFP),用于通過分析和提取受體和配體之間的結(jié)合模式(或者是一組固定的氨基酸殘基,稱為基于殘基的IFP,或者是原子的組合,稱為基于原子的IFP)或物理化學(xué)特征來表示分子內(nèi)相互作用。此類指紋可以使用關(guān)于分子對接或基于結(jié)構(gòu)的實(shí)驗(yàn)數(shù)據(jù)的信息,將3D蛋白質(zhì)-配體相互作用轉(zhuǎn)換為1D bit串,隨后用于比較蛋白質(zhì)-配體的相互作用特異性。PLIFP中的這些位是通過特定規(guī)則計(jì)算的,例如原子類型和幾何(距離或角度)測量。基于結(jié)合位點(diǎn)的相似性,可以推斷出相互作用模式的相似性。這有助于從局部結(jié)構(gòu)評估蛋白質(zhì)-配體關(guān)系的結(jié)合模式。常見的蛋白質(zhì)-配體相互作用指紋類型有:(1) structural interaction ?ngerprints (SIFts), (2) structural protein–ligand interaction ?ngerprints (SPLIFs), (3) protein–ligand extended connectivity (PLEC) ?ngerprints.基于形狀的分子指紋(Shape-based ?ngerprints),對于根據(jù)參考配體,進(jìn)行基于形狀和構(gòu)象相似性的小分子虛擬篩選而言,是一種非常有效的特征。與其他虛擬篩選方法相比,基于形狀的篩選在某些方面表現(xiàn)出更顯著的性能,例如識別新的生物活性配體?;谛螤畹南嗨菩栽u估通常指化學(xué)分子的空間體積和基于表面的形態(tài)、靜電和藥效特征等特性,其通常通過對齊方法(構(gòu)建兩個形狀的3D覆蓋)或通過數(shù)值比較特征向量方法(將形狀減少為低維向量)來確定。常見的基于形狀的分子指紋有:(1) rapid overlay of chemical structures (ROCS), (2) ultrafast shape recognition (USR).強(qiáng)化分子指紋:Reinforced ?ngerprints. 上文提到的6種經(jīng)典分子指紋類型具有獨(dú)特的算法、特征和應(yīng)用,可以根據(jù)化學(xué)信息學(xué)的進(jìn)步進(jìn)行修改,從而形成強(qiáng)化分子指紋。作者在論文中總結(jié)了目前研究者提出的多種強(qiáng)化分子指紋。多種分子指紋(Multi-?ngerprints),即將多種分子指紋進(jìn)行組合使用。單一的化學(xué)指紋不能夠捕捉到化合物的所有關(guān)鍵結(jié)構(gòu)或性質(zhì)(或配體-靶相互作用)。然而,不同類型描述符的組合將捕獲化合物的多種特征,這可以提高某些算法或模型中活動預(yù)測的性能。這種同時組合多個指紋的描述符的方法被稱為多種分子指紋。例如,Lo等人提出的CSNAP3D結(jié)合了形狀和藥效團(tuán)分子指紋特征,以測量配體之間的3D相似性,并在靶標(biāo)預(yù)測任務(wù)上顯示出顯著的性能改進(jìn)。 作者還在論文中總結(jié)了現(xiàn)有的多種分子指紋聯(lián)合使用的研究進(jìn)展。不同分子指紋算法的特點(diǎn)比較見表1。論文主要介紹了分子指紋8種類型的應(yīng)用:(1) 虛擬篩選;(2) 化學(xué)空間的多樣性評估;(3) 作為判別模型的特征;(4) 用于計(jì)算上的分子從頭設(shè)計(jì);(5) 合成可及性和反應(yīng)預(yù)測(從反應(yīng)物的分子指紋出發(fā),應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行反映預(yù)測的示例見圖3);(6) 骨架跳躍(scaffold hopping);(7) 代謝產(chǎn)物識別;(8) 毒性預(yù)測。下面詳細(xì)介紹分子指紋在高通量虛擬篩選種的應(yīng)用。 圖3 通過反應(yīng)指紋和神經(jīng)網(wǎng)絡(luò)預(yù)測反應(yīng)類型和產(chǎn)物結(jié)構(gòu)的過程。 在早期藥物研發(fā)過程中,最傳統(tǒng)和最被接受的苗頭化合物、先導(dǎo)化合物發(fā)現(xiàn)和優(yōu)化的方法是基于一系列實(shí)驗(yàn)生物分析的高通量篩選(high-throughput screening, HTS)。鑒于實(shí)驗(yàn)方法的局限性,如成本高、持續(xù)時間長和效率低,虛擬篩選作為一種計(jì)算技術(shù)出現(xiàn),可以自動從大規(guī)模數(shù)據(jù)集中識別有效的活性候選分子,以預(yù)先篩選出有潛力的化合物用于生物測試。虛擬篩選可分為兩大類:基于配體的虛擬篩選(ligand-based virtual screening, LBVS)和基于結(jié)構(gòu)的虛擬篩選(structure-based virtual screening, SBVS)。 LBVS基于結(jié)構(gòu)相似的化合物具有相似生物活性的假設(shè)。其目的是識別與已知對特定靶標(biāo)具有活性的化合物類似的化合物。相比之下,SBVS側(cè)重于配體-靶標(biāo)結(jié)合位點(diǎn)的結(jié)構(gòu)信息和靶標(biāo)蛋白質(zhì)的3D結(jié)構(gòu)知識,從化學(xué)空間中優(yōu)先考慮和搜索對感興趣靶標(biāo)(蛋白質(zhì)或RNA)有結(jié)合潛力的配體。兩類虛擬篩選方法的比較見圖2。表2 LBVS和SBVS的比較  4.1.1 LBVSLBVS通常只需要有關(guān)配體相關(guān)性質(zhì)的信息,這具有效率高、時間短的優(yōu)點(diǎn)。LBVS方法通常側(cè)重于具有已知和未知活性的化合物之間的比較分析。比較分析主要基于化合物的四個方面:(1) 整體結(jié)構(gòu);(2) 特定子結(jié)構(gòu)(或官能團(tuán));(3) 藥效團(tuán)性質(zhì)[氫鍵供體(hydrogen bond donors, HBDs)、氫鍵受體(hydrogen bond acceptors, HBAs)等];(4) 分子3D形狀?;谙嗨菩栽恚⊿imilarity Property Principle, SPP)假設(shè)的相似性搜索是LBVS的典型方法。各種分子指紋或物理化學(xué)描述符來被用來識別與模板分子在結(jié)構(gòu)或性質(zhì)上的相似性/不相似性。結(jié)果取決于各種分子指紋方法以及它們?nèi)绾斡?jì)算化學(xué)分子的表示。例如,使用不同種類的分子指紋可以提取不同的配體性質(zhì)。當(dāng)使用結(jié)構(gòu)性的分子指紋或描述符時,化學(xué)分子的結(jié)構(gòu)信息和物理化學(xué)性質(zhì)通常被表示向量或字符串,這是LBVS的關(guān)鍵步驟?;衔锏拿芗⒖焖俸陀?jì)算機(jī)友好的表示有助于計(jì)算上的高通量虛擬篩選。在大規(guī)模數(shù)據(jù)集中篩選特定的生物活性常用四種方法:(1) QSAR;(2) 基于AI的判別模型;(3) 聚類;(4) 相似性/不相似性評分函數(shù)的搜索方法。根據(jù)研究人員關(guān)注的特定需求或任務(wù),不同的分子指紋或描述符將化學(xué)分子轉(zhuǎn)換為矩陣,并通常作為QSAR和ML模型中的輸入。LBVS的相關(guān)方法主要基于配體本身的相似性比較。然而,由于“活性懸崖”,結(jié)構(gòu)相似的化合物之間有時會出現(xiàn)生物活性的顯著差異。僅依賴于配體的單一視角可能導(dǎo)致不準(zhǔn)確虛擬篩選結(jié)果。4.1.2 SBVSSBVS主要基于配體-蛋白質(zhì)復(fù)合物結(jié)合位點(diǎn)的結(jié)構(gòu),并且更全面,通常具有更大的數(shù)據(jù)量,從而提高了SBVS的性能和準(zhǔn)確性。典型的基于結(jié)構(gòu)的虛擬篩選過程通常包括兩個步驟:(1) 基于形狀和相互作用互補(bǔ)性的信息將化合物對接到推定的結(jié)合口袋(putative binding pocket);(2) 評估與靶標(biāo)相互作用的化合物的特定構(gòu)象的結(jié)合親和力,并通過評分函數(shù)選擇最有利的對接姿勢。自20世紀(jì)80年代初以來,分子對接一直是一種被廣泛認(rèn)可和有效的SBVS計(jì)算方法。其目的是將候選數(shù)據(jù)集中的所有配體對接到所選靶標(biāo)的結(jié)合口袋中,然后評估配體與具有已知3D結(jié)構(gòu)的蛋白質(zhì)之間的親和力。然而,用于測量配體-靶標(biāo)親和力的實(shí)驗(yàn)方法[如核磁共振(NMR)和X射線晶體學(xué)]耗時長使得分子對接不適合高通量虛擬篩選任務(wù)。因此,基于幾何匹配和能量匹配的配體-蛋白質(zhì)相互作用的計(jì)算機(jī)輔助自動建模的好處不言而喻。然而,在評估配體-蛋白質(zhì)姿勢的結(jié)合親和力時,評分函數(shù)面臨眾所周知的局限性,例如對構(gòu)象熵(例如,蛋白質(zhì)柔性)和來自溶劑的能量貢獻(xiàn)的考慮不足。蛋白質(zhì)-配體相互作用指紋,例如IFP、SIFt和SPLIF,包含配體和靶標(biāo)的結(jié)構(gòu)和物理化學(xué)信息的蛋白質(zhì)-配體復(fù)合物提供了一種快速和自動化的方式評估蛋白質(zhì)-配體復(fù)合體的3D結(jié)構(gòu)相似性的替代方法。分析和評估配體-蛋白質(zhì)結(jié)合相互作用的結(jié)構(gòu)和姿勢信息在SBVS中至關(guān)重要。傳統(tǒng)的方法,如X射線晶體學(xué)、核磁共振和計(jì)算分子對接,在處理高通量任務(wù)時變得困難和低效。因此,基于分子指紋的機(jī)器學(xué)習(xí)算法允許簡單和通用的結(jié)構(gòu)解釋和有效的數(shù)據(jù)處理。 分子指紋算法在簡單性和表示性之間提供了良好的權(quán)衡,并且可以用于以低計(jì)算成本的方式提取和表達(dá)大規(guī)?;瘜W(xué)集合的特定結(jié)構(gòu)或物理化學(xué)特征。然而,盡管它們具有優(yōu)勢,但在藥物研發(fā)應(yīng)用中使用當(dāng)前的分子指紋仍存在一些挑戰(zhàn)。 1. 數(shù)據(jù)集質(zhì)量低且可訪問性差。公共數(shù)據(jù)庫中,可用的信息和相關(guān)可用特征非常少,而許多制藥公司每年也會產(chǎn)生大量未公開的實(shí)驗(yàn)數(shù)據(jù)。2. 缺乏標(biāo)準(zhǔn)的一站式管道。盡管指紋具有各種優(yōu)點(diǎn),但它很少能夠獨(dú)立完成高通量虛擬篩選任務(wù)。在通過分子指紋制備化學(xué)分子的輸入數(shù)據(jù)之后,需要將計(jì)算公式或預(yù)測模型作為任務(wù)的核心步驟,并且還需要進(jìn)行驗(yàn)證。一般來說,研究人員通常使用不同的軟件以不同的方式處理數(shù)據(jù)。整個過程的標(biāo)準(zhǔn)化和通用性對于消除學(xué)科障礙和避免交互使用不同軟件時的錯誤至關(guān)重要。這需要研究人員通過統(tǒng)一的評估方法,為不同的需求和任務(wù)設(shè)計(jì)標(biāo)準(zhǔn)和合理的管道。3. 分子指紋和相關(guān)步驟選擇的任意性。對同一任務(wù)使用不同的指紋通常會導(dǎo)致不同的結(jié)果。由于缺乏分子指紋性能的黃金標(biāo)準(zhǔn),很難選擇最合適的標(biāo)準(zhǔn)。另外,一些參數(shù),例如通常的相似度閾值的選擇,沒有明確描述。此外,在選擇預(yù)測模型時,應(yīng)保持準(zhǔn)確性和可解釋性之間的平衡。然而,在大多數(shù)研究中,分子指紋、模型和評價指標(biāo)的選擇通常是任意的。4. 不完整的3D指紋算法。3D分子形狀對于生物活性任務(wù)至關(guān)重要,因?yàn)樗P(guān)于分子化學(xué)構(gòu)象的更復(fù)雜和全面的信息。然而,在許多情況下,基于2D指紋的方法通常比基于3D形狀的方法具有更好的性能。Venkatraman等人比較了五個基于2D的指紋和五個基于3D的指紋的性能,并表明可以從3D指紋中提取的構(gòu)象特征的數(shù)量和構(gòu)象的靈活性是提高3D方法性能的關(guān)鍵。此外,分子形狀和其他化學(xué)性質(zhì)可以結(jié)合起來,以開發(fā)更復(fù)雜和信息豐富的3D模型。參考文獻(xiàn) Yang J, Cai Y, Zhao K, et al. Concepts and applications of chemical fingerprint for hit and lead screening[J]. Drug Discovery Today, 2022: 103356.
|