理論上講,基因組蘊含了物種組成成分、成分之間的相互作用、以及系統(tǒng)層面正常運作的全部知識,這些知識是通過基因及其調(diào)控機制來存儲的,即分子生物學(xué)的中心法則指出的從 DNA 編碼基因到 RNA 再到蛋白質(zhì)的遺傳信息的流動方向。每個細(xì)胞都有一套完整的基因調(diào)控系統(tǒng),用來保持體內(nèi)代謝過程的正常狀態(tài)、適應(yīng)多變的環(huán)境、防止生命活動中的有害后果、產(chǎn)生細(xì)胞周期特異性和對外界信號響應(yīng)的特異性。所以基因調(diào)控涉及了發(fā)育、分子生物學(xué)、遺傳學(xué)、進(jìn)化和生理等諸多領(lǐng)域。著名的 C 值悖論,即基因組的大小和生物的復(fù)雜程度不相關(guān)的一系列現(xiàn)象,主要就是用基因調(diào)控的復(fù)雜性來解釋的。人的基因組只有25000個基因,遠(yuǎn)遠(yuǎn)小于以前的預(yù)期,更為驚人的是,人的基因數(shù)目和線蟲這樣的低等動物相差無幾。目前普遍的觀點認(rèn)為像線蟲這樣的低等動物,每個基因只有一兩個調(diào)控區(qū),而人的基因則可以有多達(dá)幾十個調(diào)控區(qū),導(dǎo)致表達(dá)模式的組合比線蟲多很多倍,從而搭出人如此復(fù)雜的生物系統(tǒng)。 用數(shù)學(xué)語言刻畫,“基因調(diào)控網(wǎng)絡(luò)”就是以基因為節(jié)點、基因之間調(diào)控作用為邊建立的生物分子網(wǎng)絡(luò)。這里的調(diào)控作用指的并不是兩段基因之間的物理相互聯(lián)系,而是一種間接通過 RNA 、蛋白質(zhì)、代謝物實現(xiàn)的調(diào)控作用。它是系統(tǒng)生物學(xué)里的研究熱點,強調(diào)以網(wǎng)絡(luò)、相互作用、動態(tài)行為等整體論觀點,并結(jié)合數(shù)據(jù)整合的觀點對復(fù)雜生命現(xiàn)象進(jìn)行理解和詮釋。 半個世紀(jì)以來,基因調(diào)控的 DNA 序列層面和蛋白質(zhì)層次從物理、生化角度得到廣泛關(guān)注,借助基因芯片技術(shù)和轉(zhuǎn)錄組測序技術(shù),眾多研究者可以在對細(xì)胞擾動后在相對很少的時間點上取得對基因表達(dá)豐度的觀測數(shù)據(jù),然后設(shè)計微分方程、概率圖、布爾網(wǎng)絡(luò)等數(shù)學(xué)模型和算法,在反問題的框架下推斷基因調(diào)控網(wǎng)絡(luò),取得了巨大的成功。然而在基因調(diào)控與環(huán)境等外部因素交互等研究方面遇到了困難。因此,近年來位于中間層面的表觀編碼特別是染色質(zhì)可及性、組蛋白修飾和甲基化狀態(tài)得到密切關(guān)注,并形成遺傳學(xué)中的一個前沿領(lǐng)域:表觀遺傳學(xué)。其重點研究基因的 DNA 序列在沒有發(fā)生改變的情況下,基因功能發(fā)生了可遺傳的變化,并最終導(dǎo)致表型的變化。有越來越多研究表明,染色體狀態(tài)從表觀遺傳學(xué)層面為基因調(diào)控的研究注入了新的元素,同時也開辟出新途徑。 以染色質(zhì)上基因的調(diào)控元件的可及性狀態(tài)為核心,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院王勇研究員與美國斯坦福大學(xué)王永雄授、清華大學(xué)自動化系江瑞副教授開展合作,梳理出了幾個核心問題,即染色質(zhì)調(diào)控元件開放狀態(tài)參與基因表達(dá)調(diào)控的機理;調(diào)控元件的上游調(diào)控因子是什么?受這些功能區(qū)域調(diào)控的下游基因是什么?如何集成調(diào)控元件上下游的定量信息揭示基因調(diào)控機理? 他們對兩種最容易獲取的全基因組測序數(shù)據(jù),即基因表達(dá)數(shù)據(jù)和染色質(zhì)可及性數(shù)據(jù),進(jìn)行聯(lián)合的統(tǒng)計建模。提出的了 PECA 模型(Paired Expression and Chromatin Accessibility modeling),可以闡明基因選擇性表達(dá)所依賴的調(diào)控元件及其相互作用的分子機制。當(dāng)這兩種數(shù)據(jù)在同一種細(xì)胞類型都被測定時,表達(dá)數(shù)據(jù)可以提供基因調(diào)控后果的信息(哪個基因的表達(dá)被提升或降低了?),而染色質(zhì)可及性數(shù)據(jù)可以提供這些調(diào)控在基因組哪些位置發(fā)生的信息(通過哪些調(diào)控元件如何調(diào)控?)。對這兩種數(shù)據(jù)的系統(tǒng)集成建模,可以充分揭示精細(xì)的分子調(diào)控機理。對 ENCODE 數(shù)據(jù)庫中小鼠跨組織匹配數(shù)據(jù)進(jìn)行的初步研究表明, PECA 模型給出的組織特異基因調(diào)控網(wǎng)絡(luò)可以用來注釋非編碼區(qū)域調(diào)控元件,從而對非編碼區(qū)域的突變與表型之間的聯(lián)系從分子機理上給出解釋??梢云诖诓痪玫膶?,很多人都會有自身的全基因組測序數(shù)據(jù), PECA 可以用來注釋人與人之間的幾百萬個基因組上特定位置的不同(點突變和結(jié)構(gòu)變異等基因組變異)的調(diào)控機理,這將是一個有著非常重要意義的應(yīng)用。 引入調(diào)控元件的狀態(tài)到基因表達(dá)的定量研究,通過構(gòu)建基因調(diào)控網(wǎng)絡(luò)來探索表觀遺傳與遺傳因素互作機理,極大地擴展了傳統(tǒng)基因調(diào)控網(wǎng)絡(luò)的概念。發(fā)表于《國家科學(xué)評論》的綜述文章介紹了這一方面的最新進(jìn)展,具體的數(shù)學(xué)模型和算法近期發(fā)表在《美國科學(xué)院院刊》上。 來源:中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院 |
|