一、背景藥物開發(fā)是一個耗時且昂貴的過程,通常需要超過 10 年時間和平均高達(dá) 26 億美元的投資才能將一種藥物從初步發(fā)現(xiàn)推向市場。這些高昂成本主要?dú)w因于候選藥物試驗(yàn)的高失敗率。盡管在從數(shù)百或數(shù)千種化合物中選擇候選分子上投入了大量資金,但新候選藥物最終成功上市的比例僅約為 10%。因此,選擇最有前途的候選分子將有助于加速研究過程并減少最終階段的失敗,從而最大限度地降低藥物開發(fā)成本。 機(jī)器智能(MI),包括機(jī)器學(xué)習(xí)和深度學(xué)習(xí),已成功應(yīng)用于藥物發(fā)現(xiàn),并被視為候選藥物選擇的有前途方法。然而,MI 內(nèi)部存在性能與可解釋性之間的困境,這限制了其應(yīng)用范圍: ? 這些限制在藥物開發(fā)中不利,因?yàn)樵擃I(lǐng)域的研究人員不僅希望獲得預(yù)測能力,還希望獲得模型提供的知識。 開發(fā)解釋深度學(xué)習(xí)模型結(jié)果的方法并非易事。相反,提高機(jī)器學(xué)習(xí)模型的性能可能提供更快、更簡單的解決方案來緩解預(yù)測性和可解釋性的困境。例如,自動機(jī)器學(xué)習(xí)(AutoML)是增強(qiáng)藥物開發(fā)過程的一種有前途的策略。 二、方法2.1 CILBO 管道概述為了提高易于解釋的機(jī)器學(xué)習(xí)模型在藥物發(fā)現(xiàn)中的分類性能,作者提出了一種稱為"使用貝葉斯優(yōu)化的類不平衡學(xué)習(xí)"(CILBO)的管道。該管道使用貝葉斯優(yōu)化來建議機(jī)器學(xué)習(xí)模型的最佳超參數(shù)組合,包括模型變量、訓(xùn)練和處理不平衡數(shù)據(jù)集的策略。 ![]() 圖 1. 最終模型構(gòu)建工作流程 2.2 類不平衡問題藥物發(fā)現(xiàn)數(shù)據(jù)集通常高度不平衡,包含極少數(shù)功能性候選物(感興趣類別)和數(shù)百或數(shù)千倍更多的非功能性分子(非感興趣類別)。少數(shù)感興趣類別更可能被預(yù)測為罕見事件,被完全忽略,或被假定為噪聲或異常值,這會導(dǎo)致偏差并導(dǎo)致泛化性能不佳。 ? 一旦機(jī)器學(xué)習(xí)模型應(yīng)用策略來最小化不平衡數(shù)據(jù)集造成的分類偏差,它可能會進(jìn)一步受益于 AutoML 算法改進(jìn)的性能。 2.3 貝葉斯優(yōu)化貝葉斯優(yōu)化是一種用于黑盒函數(shù)全局優(yōu)化的順序設(shè)計(jì)策略,不假設(shè)任何函數(shù)形式,特別適合藥物開發(fā)等應(yīng)用領(lǐng)域。這里使用的優(yōu)化與常用的超參數(shù)優(yōu)化不同,它解決了類不平衡問題。 2.4 模型選擇與特征提取作者選擇了隨機(jī)森林作為分類器,因?yàn)樗軌蛳拗七^擬合并且易于解釋。 ? 可選的分子特征包括描述符、RDK 指紋、MACCS 鍵、Avalon 指紋、ECFP4 和 ECFP6,這些都是由 RDKit 2020.09.1.0 計(jì)算的。所有這些特征在模型的訓(xùn)練階段都被單獨(dú)測試,但不是特征的復(fù)雜組合。最終模型選擇了 RDK 指紋作為分子特征,因?yàn)樗峁┝朔肿油負(fù)浣Y(jié)構(gòu)表示的描述,對于解釋模型非常有用。 2.5 超參數(shù)優(yōu)化貝葉斯優(yōu)化用于找到模型的最佳超參數(shù)。在這項(xiàng)工作中,貝葉斯優(yōu)化不僅用于分類器,還用于專門處理不平衡數(shù)據(jù)集的策略。訓(xùn)練數(shù)據(jù)集高度不平衡,這可能會引入分類偏差。貝葉斯優(yōu)化旨在為分類器提供最佳超參數(shù)組合,并緩解類不平衡問題。 需要優(yōu)化的超參數(shù)包括: 最后兩個超參數(shù)"class_weight"和"sampling_strategy"專門用于處理不平衡數(shù)據(jù)集。 2.6 數(shù)據(jù)集訓(xùn)練模型使用的數(shù)據(jù)集與 Stokes 等人論文中描述的數(shù)據(jù)集相同,該數(shù)據(jù)集結(jié)合了來自 USFDA 批準(zhǔn)藥物庫和從天然產(chǎn)物中分離出的分子。它包含 2335 個唯一化合物,其中 120 個對大腸桿菌有生長抑制活性。該數(shù)據(jù)集高度不平衡。 用于候選預(yù)測的數(shù)據(jù)集也是 Stokes 等人描述的相同數(shù)據(jù)集,來自 Drug Repurposing Hub,包含 6111 個處于人類疾病研究各個階段的分子。通過移除訓(xùn)練集和 Drug Repurposing Hub 之間分子圖譜相同的化合物,剩余的 4496 個分子用于兩個模型的預(yù)測。 三、實(shí)驗(yàn)與結(jié)果3.1 模型訓(xùn)練階段性能評估貝葉斯優(yōu)化建議的最佳超參數(shù)列于表 1 中。最后兩個超參數(shù)"class_weight"和"sampling_strategy"用于最小化數(shù)據(jù)集不平衡引起的偏差并提高整體模型性能。 表 1. 貝葉斯優(yōu)化建議的最佳超參數(shù)
使用這些最佳超參數(shù)和特征,模型在訓(xùn)練階段經(jīng)過 30 次五折交叉驗(yàn)證后的平均接收者操作特性曲線下面積(ROC-AUC)約為 0.917,高于 Stokes 模型的 0.896。在使用上述最佳超參數(shù)和分子特征增強(qiáng)后,并使用更多訓(xùn)練樣本(訓(xùn)練集包括 90% 的分子),最終模型實(shí)現(xiàn)了 0.99 的 ROC-AUC(圖 2)。
基于最終模型測試集的混淆矩陣如表 2 所示。根據(jù)該矩陣,模型沒有將任何非抗菌分子歸類為抗菌分子,這表明該模型在識別候選化合物方面具有較低的假陽性率。 表 2. 最終模型的混淆矩陣此混淆矩陣基于最終模型的測試集,預(yù)測分?jǐn)?shù)高于 0.5 的分子被視為預(yù)測抗菌。 3.2 與 Stokes 模型在抗菌發(fā)現(xiàn)中的預(yù)測結(jié)果比較最終模型隨后應(yīng)用于從 Drug Repurposing Hub 記錄的庫中識別具有抗菌特性的候選分子。通過比較兩個模型對 162 個經(jīng)驗(yàn)測試分子的預(yù)測結(jié)果,發(fā)現(xiàn) CILBO 模型在預(yù)測抗菌特性方面與 Stokes 的深度學(xué)習(xí)模型相當(dāng)有效。 ![]() 圖 3. 兩個模型的預(yù)測結(jié)果圖。藍(lán)點(diǎn)代表非抗菌;橙點(diǎn)代表抗菌。X 軸(Pred_Score_Forest)是由最終模型(隨機(jī)森林分類器)預(yù)測的分?jǐn)?shù);Y 軸(Pred_Score_Net)是由 Stokes 最終模型(圖神經(jīng)網(wǎng)絡(luò))預(yù)測的分?jǐn)?shù)。 具體而言,在 CILBO 模型中預(yù)測分?jǐn)?shù)高于 0.5(模型默認(rèn)閾值分?jǐn)?shù))的分子中,約 75% 被發(fā)現(xiàn)是經(jīng)驗(yàn)測試的抗菌分子,而在 Stokes 模型中預(yù)測分?jǐn)?shù)高于 0.5 的分子中,74% 是經(jīng)驗(yàn)測試的抗菌分子。當(dāng)在兩個模型中選擇高于 0.5 的閾值分?jǐn)?shù)時,約 80% 滿足條件的分子具有經(jīng)驗(yàn)測試的抗菌特性,這高于任何單獨(dú)模型的數(shù)量。 四、討論與應(yīng)用機(jī)器智能(MI)被視為幫助緩解藥物發(fā)現(xiàn)過程中高昂成本壓力的有前途方法。然而,MI 內(nèi)部的預(yù)測性和可解釋性之間的困境限制了其在藥物發(fā)現(xiàn)中的更廣泛應(yīng)用。因此,作者提出了"使用貝葉斯優(yōu)化的類不平衡學(xué)習(xí)"(CILBO)管道來提高機(jī)器學(xué)習(xí)模型的分類性能。 CILBO 模型的一個關(guān)鍵自然優(yōu)勢是它易于解釋。此外,訓(xùn)練像這里使用的隨機(jī)森林模型這樣的機(jī)器學(xué)習(xí)模型所需的時間至少比訓(xùn)練深度學(xué)習(xí)模型所需的時間短 100 倍。這提供了足夠的時間自動嘗試各種超參數(shù)并確定最佳超參數(shù)來增強(qiáng)模型。與普通深度學(xué)習(xí)模型相比,基于 CILBO 構(gòu)建的模型的另一個明顯優(yōu)勢是它對模型設(shè)計(jì)者和基礎(chǔ)設(shè)施的依賴性較低。 特別值得注意的是,不平衡數(shù)據(jù)集在藥物行業(yè)相當(dāng)常見。它們可能在 MI 輔助藥物開發(fā)過程中導(dǎo)致嚴(yán)重的分類偏差,但這個問題經(jīng)常被忽視。作者在構(gòu)建模型時考慮了這種不平衡問題,并使用特殊超參數(shù)來控制這種類型的偏差,旨在增強(qiáng)模型性能。 五、結(jié)論作者構(gòu)建了一個基于 CILBO(他們提出的管道)的特殊隨機(jī)森林模型,并將這個機(jī)器學(xué)習(xí)模型與 Stokes 等人在抗生素發(fā)現(xiàn)中創(chuàng)建的深度學(xué)習(xí)模型進(jìn)行了比較。比較結(jié)果以及模型的其他特性表明:
因此,作者設(shè)計(jì)的 CILBO 管道為促進(jìn)藥物開發(fā)中的機(jī)器智能提供了一種替代和簡單的解決方案。 |
|