來源:生物世界 2023-10-20 13:42 該研究基于知識引導(dǎo)與數(shù)據(jù)驅(qū)動相融合的創(chuàng)新策略,建立了人工智能輔助的啟動子序列優(yōu)化方法——DeepSEED,能夠有效突破功能啟動子設(shè)計中維度高、樣本小的核心難題 近日,清華大學(xué)自動化系汪小我團(tuán)隊在 Nature Communications 期刊發(fā)表了題為:Deep flanking sequence engineering for efficient promoter design using DeepSEED 的研究論文。 該研究提出了一種將專家知識與大數(shù)據(jù)學(xué)習(xí)相融合的合成啟動子人工智能輔助設(shè)計方法——DeepSEED,發(fā)現(xiàn)了轉(zhuǎn)錄因子結(jié)合位點旁側(cè)序列在啟動子優(yōu)化設(shè)計中的重要作用,為突破基因調(diào)控元件設(shè)計中面臨的高維度、小樣本的核心難題提供了新的思路。 該研究圍繞著啟動子(Promoter)這一負(fù)責(zé)決定基因在何時、何地以何種程度進(jìn)行轉(zhuǎn)錄表達(dá)的合成生生物學(xué)基礎(chǔ)元件展開研究。DNA序列設(shè)計的空間巨大,1000bp長度的序列理論上有10^600種可能的排列組合方式。傳統(tǒng)的啟動子解析與設(shè)計研究主要側(cè)重于對功能已知的轉(zhuǎn)錄因子結(jié)合位點(Transcription Factor Binding Sites,TFBS)進(jìn)行分析,并通過位置權(quán)重矩陣(PWM)等模型對序列motif進(jìn)行描述和建模。然而對在啟動子序列中占據(jù)很大比例的位于不同TFBS之間的旁側(cè)序列(Flanking sequence)卻缺少研究。 雖然有實驗表明,旁側(cè)序列的改變也會對啟動子活性產(chǎn)生影響,但由于旁側(cè)序列中的特征信號弱,難以被人為歸納總結(jié)為明確的知識和設(shè)計準(zhǔn)則,導(dǎo)致旁側(cè)序列在啟動子功能研究中被長期忽視。此外,由于天然基因組具有特殊功能的啟動子往往樣本數(shù)量很少,導(dǎo)致對響應(yīng)特定生物信號的誘導(dǎo)型與細(xì)胞特異型等更具實際應(yīng)用價值的啟動子難以直接建立深度學(xué)習(xí)模型對整體模式進(jìn)行提取。 針對上述問題,研究團(tuán)隊創(chuàng)新提出了一種知識引導(dǎo)與數(shù)據(jù)驅(qū)動相融合的智能設(shè)計策略——DeepSEED(圖1):首先基于人類專家擅長在小樣本中識別明確強(qiáng)特征模式的特點,利用專家知識定義與啟動子功能相關(guān)的重要顯式模式例如TFBS或?qū)<胰我庠O(shè)定的序列片段作為“種子”;在此基礎(chǔ)上,借助深度學(xué)習(xí)模型在大型數(shù)據(jù)集中提取隱含弱模式的強(qiáng)大能力,在海量數(shù)據(jù)中學(xué)習(xí)旁側(cè)序列與種子序列間隱式匹配關(guān)系,進(jìn)而基于條件生成式模型產(chǎn)生與“種子”相匹配的完整啟動序列,并對序列整體進(jìn)行全局優(yōu)化。
DeepSEED方法由兩個深度學(xué)習(xí)模塊組成,一個條件式生成對抗網(wǎng)絡(luò)(cGAN)用于捕獲顯式和隱式模式之間的依賴關(guān)系,一個基于DenseNet-LSTM的預(yù)測模型來評估啟動子性能,并利用遺傳算法對這兩個模型進(jìn)行偶聯(lián),通過模型迭代實現(xiàn)功能啟動子的優(yōu)化設(shè)計。在實際應(yīng)用過程中,研究者可以任意指定已知生物調(diào)控序列作為“種子”,模型通過學(xué)習(xí)大數(shù)據(jù)中旁側(cè)序列的調(diào)控規(guī)律對“種子”的旁側(cè)序列進(jìn)行補(bǔ)全,提升啟動子的整體轉(zhuǎn)錄活性。從而實現(xiàn)啟動子的按需優(yōu)化設(shè)計。 圖1. DeepSEED模型框架 研究團(tuán)隊成功將該方法應(yīng)用于大腸桿菌內(nèi)組成型啟動子、IPTG誘導(dǎo)型啟動子,和哺乳動物細(xì)胞內(nèi)Dox誘導(dǎo)型啟動子的優(yōu)化設(shè)計(圖2)。尤為值得一提的是,研究團(tuán)隊選擇在生命科學(xué)研究中廣泛使用的、近三十年來未能被進(jìn)一步優(yōu)化的哺乳動物細(xì)胞Dox誘導(dǎo)型Tet-On調(diào)控系統(tǒng)作為研究對象,實驗表明77.8%的人工啟動子表現(xiàn)出誘導(dǎo)活性提高,83.3%的人工啟動子表現(xiàn)出更高的誘導(dǎo)倍數(shù)(圖3)。 生成的合成啟動子表現(xiàn)出了高度的序列多樣性、與天然基因組序列的低相似性,同時保留了天然序列中k-mer頻率等特征,并優(yōu)化了DNA大溝、小溝偏好、偏轉(zhuǎn)角等整體形狀屬性,大幅提升了合成啟動子的轉(zhuǎn)錄活性和誘導(dǎo)率等關(guān)鍵性能,并在多種不同培養(yǎng)條件和細(xì)胞類型中表現(xiàn)魯棒。 圖2. 在多種啟動子設(shè)計任務(wù)中成功應(yīng)用 圖3. 哺乳動物細(xì)胞內(nèi)Dox誘導(dǎo)型啟動子的設(shè)計結(jié)果
綜上所述,該研究基于知識引導(dǎo)與數(shù)據(jù)驅(qū)動相融合的創(chuàng)新策略,建立了人工智能輔助的啟動子序列優(yōu)化方法——DeepSEED,能夠有效突破功能啟動子設(shè)計中維度高、樣本小的核心難題,為研究者提供了可用于旁側(cè)序列優(yōu)化和多類型啟動子設(shè)計的人工智能輔助工具,有望為合成生物學(xué)研究提供基礎(chǔ)性的設(shè)計工具和多樣化的調(diào)控元件。 清華大學(xué)自動化系博士研究生張鵬程、博士研究生王昊晨與碩士研究生許涵文為該論文的共同第一作者,清華大學(xué)汪小我教授為通訊作者。清華大學(xué)的魏磊、劉莉揚(yáng)、胡志睿等也對本文做出了重要貢獻(xiàn)。該研究得到了國家自然科學(xué)基金、國家重點研發(fā)計劃、清華大學(xué)國強(qiáng)研究院項目的資助。 |
|