轉錄因子(Transcription Factors, TFs)指能夠以序列特異性方式結合DNA并且調(diào)節(jié)轉錄的蛋白質。轉錄因子通過識別特定的DNA序列來控制染色質和轉錄,以形成指導基因組表達的復雜系統(tǒng)。盡管眾多科學家對理解轉錄因子如何控制基因表達有著濃厚的興趣,精準定位轉錄因子在基因組上的特異性結合位點,以及轉錄因子結合后最終如何參與轉錄調(diào)節(jié)仍然具有挑戰(zhàn)性。 本綜述主要涵蓋了1600多種可能的人類轉錄因子和與其中三分之二轉錄因子結合的motif,來鑒定轉錄因子并對其功能進行注釋。本文根據(jù)目前對轉錄因子及其功能的理解,為思考轉錄因子如何單獨又如何作為整體工作提供了思路。 轉錄因子是對基因組的直接闡釋,是執(zhí)行DNA解碼序列的第一步。許多轉錄因子充當著主調(diào)節(jié)因子和選擇基因的角色,控制著細胞類型的決定、發(fā)育模式和特定途徑控制(如免疫反應)的過程。在實驗室中,轉錄因子可以促進細胞分化、去分化和轉分化。轉錄因子和轉錄因子結合位點突變是人類致病的主要因素。在后生動物中,他們蛋白質序列調(diào)控區(qū)的生理作用通常非常保守,這表明基因組調(diào)控'網(wǎng)絡'可能同樣是保守的。但是,個別監(jiān)管序列的轉換率很高,當時間尺度更長時,轉錄因子可能會發(fā)生多拷貝和突變。相同的轉錄因子可以調(diào)節(jié)不同細胞類型中的不同基因(例如,乳腺和子宮內(nèi)膜細胞系中的ESR1),這表明即使在同一生物體內(nèi)轉錄因子的調(diào)節(jié)也是動態(tài)的。確定轉錄因子如何以不同方式組裝以識別綁定位點和調(diào)控'網(wǎng)絡'轉錄是一項龐大而令人望而生畏的工作,但是,對于理解它們的生理作用、解碼基因組的特定功能,以及在復雜生物中繪制高度特異性表達程序的編排是至關重要的。 相對于其他序列,轉錄因子對特異性結合序列具有1,000倍甚至更高的偏好,因為轉錄因子可以通過阻斷其他蛋白質的DNA結合位點進而發(fā)揮作用(例如,經(jīng)典的lambda,lac和trp 阻遏物),單獨結合特定DNA序列的能力通常被視為調(diào)節(jié)轉錄能力的指標。如果沒有轉錄因子結合的DNA序列的詳細信息,就不能在功能上理解這些蛋白質。轉錄因子與特異性DNA結合通常概括為“基序”(motif) ,是指給定TF優(yōu)先的相關短序列組的模型,其可用于掃描較長序列(例如,啟動子)以鑒定潛在的結合位點。確定DNA結合的motif通常是詳細闡釋轉錄因子功能的第一步,鑒定潛在的結合位點為進一步分析提供了途徑。在過去的十年中,我們開發(fā)motif和基因組結合位點的能力得到了顯著提高,從而產(chǎn)生了關于TF-DNA相互作用的前所未有的大量數(shù)據(jù)。為了開發(fā)目前的TF目錄,本文主要參考了TRANSFAC,JASPAR,HT-SELEX,UniPROBE和CisBP,以及先前的人類轉錄因子目錄。 最早在20世紀80年代,就描述了真核生物中的主要TF家族,如C2H2-鋅指(ZF),同源域,堿性螺旋 - 環(huán) - 螺旋(bHLH),堿性亮氨酸拉鏈(bZIP)和核激素受體(NHR)。通常通過諸如DNA酶足跡法或遷移率變換的方法鑒定結合位點,再使用N-末端肽測序,噬菌體文庫或單雜交篩選鑒定特定結合蛋白。繼續(xù)通過實驗方法鑒定(例如,單雜交測定,DNA親和純化-質譜,和蛋白質微陣列可以篩選新的DNA結合蛋白),但是今天,大多數(shù)已知和推定的TF已經(jīng)通過先前表征的DNA結合結構域(DBD)的序列同源性來鑒定,這也用于對TF進行分類。目前在蛋白質數(shù)據(jù)庫(PDB)中可獲得大約100種已知的真核生物DBD類型。迄今為止,除了少數(shù)充分表征的哺乳動物轉錄因子之外的所有轉錄因子都含有已知的DBD。在僅基于與DBD的同源性匹配來推斷功能時必須小心,因為并非所有結構域都一定會結合特定DNA序列。 首先根據(jù)結合位點中每個堿基的轉錄因子的相對偏好產(chǎn)生一張基礎表或“位置權重矩陣”(PWM)。在每個堿基位置,四個堿基中的每一個都具有得分,并且將序列的每個堿基的這些得分相乘來預測得到轉錄因子對該序列的相對親和力。在許多情況下,這反映了對一個或少數(shù)相關序列的強烈偏好。此外,PWM還存在一些缺點:基線位置之間可能存在依賴關系由于DNA形狀或可變形性; 轉錄因子可以具有多種結合模式(例如,蛋白質的不同物理構型導致分離的,不同的基序)等。為了解釋這些復雜性,科學家們開發(fā)了更復雜的模型,例如結合了對二核苷酸和高級k-mers的偏好,使得轉錄因子及其家族的準確性有所提高。然而,在許多情況下,改進的效果很小甚至檢測不到。PWM仍然是分析轉錄因子結合最常用的模型,并術語“motif”來表示PWM。 接下來通常通過實驗確定的結合位點和與motif匹配的序列之間僅存在部分重疊,甚至實驗確定的結合位點是相對較差的預測因子。同時,motif匹配通常是ChIP-seq(染色質免疫沉淀測序)數(shù)據(jù)集中最富集的序列之一,表明內(nèi)在DNA結合的特異性對于體內(nèi)轉錄因子的結合是重要的。出現(xiàn)這樣的現(xiàn)象不是空穴來風,大多數(shù)轉錄因子結合位點很?。ㄍǔJ?-12個堿基),并且是靈活的,因此典型的人類基因(> 20 kb)將包含大多數(shù)轉錄因子的多個潛在結合位點。因此我們需要通過其它途徑來解決問題,例如轉錄因子之間的協(xié)同性和協(xié)同作用,為這種特異性缺陷提供了一個現(xiàn)成的解決方案。大多數(shù)人類的轉錄因子必須共同努力才能完成任何事情,但是他們之間的相互作用和關系的細節(jié)大多數(shù)是未知的。結合DNA后轉錄因子的生物化學作用也在很大程度上未被反映出來。因此,解碼基因調(diào)控如何與TF結合基序和基因序列相關仍然是一個主要的現(xiàn)實層面的挑戰(zhàn)。 理論論證和實踐觀察表明,后生動物的轉錄因子一般必須共同作用才能與DNA結合,在效應功能中達到所需的特異性。轉錄因子有多種合作方式,例如幫助相互結合DNA(協(xié)同結合)或通過不同機制影響染色質狀態(tài)或轉錄(協(xié)同調(diào)節(jié))。TF還可以作為同二聚體(例如,bZIP和bHLH),三聚體(例如,熱休克因子)或更高級結構協(xié)同結合。 協(xié)同結合可以通過幾種方式發(fā)生。當它由蛋白質-蛋白質相互作用介導時最容易理解,當兩個(或更多個)相互作用蛋白質以相容的間隔和方向結合DNA時,便賦予其額外的穩(wěn)定性。高通量體外研究表明,協(xié)同結合常常影響復合物中轉錄因子的序列偏好,并且還可能對兩個結合位點之間的間隔序列產(chǎn)生限制。單分子成像的結果研究證實,當多個轉錄因子結合在一起時會占據(jù)更長時間。 最近的研究表明DNA介導的協(xié)同結合也在轉錄因子功能中起重要作用。分子建模和結構分析表明,在某些情況下,協(xié)同性是由于DNA促進了蛋白質之間的接觸。在其他情況下,蛋白質結合在DNA的對立面或彼此相對較遠的一邊,表明DNA直接介導了協(xié)同性。也就是說,一個轉錄因子的結合以促進另一個轉錄因子結合的方式影響DNA的形狀。 為了與核小體DNA結合,TF必須與核小體競爭或以某種方式與核小體或核小體DNA相互作用以進入其位點。TF也可內(nèi)在地與核小體競爭結合TF,此外,一些TF可以啟動核小體的置換或至少改變它們的構象。這些TF的活性也可能取決于它們結合核小體DNA的能力,這可能受核小體上結合位點的旋轉定位的影響(例如,Yamanaka因子 POU5F1,SOX2,KLF4和MYC)。另一個有趣的現(xiàn)象是,不同的染色質重塑器具有特定DNA序列和/或核小體構象的偏好,表明核小體和核小體的定位機制賦予了TF功能上額外的DNA序列特異性。 轉錄因子在與DNA結合時影響轉錄的方式變化很大。一些轉錄因子(例如,TBP)可以直接RNA招募聚合酶,還有一些可以招募促進特定轉錄階段的輔助因子。大多數(shù)真核生物的轉錄因子被認為通過招募輔助因子起作用。這種“共激活因子”和“輔阻遏物”最初被鑒定為轉錄因子效應子活性的介質,通常是大的多亞基蛋白質復合物,或通過幾種機制調(diào)節(jié)轉錄的多結構域蛋白質。它們通常涉及染色質結合,核小體重塑和組蛋白或其他蛋白質結構域的共價修飾。IFNβ增強體是共激活因子招募的一個經(jīng)典例子,其中多個轉錄因子的結合導致GCN5 / KAT2A和 CBP / p300 組蛋白乙酰轉移酶的募集。由此產(chǎn)生的局部染色質環(huán)境變化會引起核小體重塑,如 SWI / SNF復合物為RNA聚合酶創(chuàng)造空間以結合并啟動轉錄。一些共激活因子和輔阻遏物似乎更廣泛。p300經(jīng)常被用作增強子的標記物,與數(shù)十種TF相關聯(lián)。連接TF和RNA聚合酶II的Mediator復合物類似地與數(shù)千個基因座相關聯(lián)。 特異性的效應結構域通??梢越閷F特異性輔助因子的招募。同樣,核激素受體的配體結合結構域以配體和背景依賴的方式促進與共激活因子、輔阻遏物和其他TF的相互作用。經(jīng)大量研究后,發(fā)現(xiàn)蛋白質中存在的經(jīng)典轉錄激活因子序列(例如,TP53, E2F和SP1中發(fā)現(xiàn)的酸性序列),它們通常是非結構化的低復雜性序列,具有稱為短線性基序的小功能區(qū)域。 TF傳統(tǒng)上被歸類為“激活物”和 “阻遏物”; 然而許多TF根據(jù)所在序列的位置和輔助因子的作用可以招募具有相反作用的多種輔助因子,例如,MAX作為與MNT或MXD1 作為異二聚體與DNA結合時起抑制劑作用,當作為異二聚體與MYC結合時起激活作用。目前還沒有全面的輔助因子目錄。此外,基因激活或增強子和啟動子之間的通信所需的生化功能在很大程度上仍然是未知的。人體中多達443種不同的染色質修飾蛋白已經(jīng)做好了歸類,并且已經(jīng)了解了輔助因子和染色質蛋白之間的許多相互作用。但是,相同的研究檢測到很少的TF,這表明TF-輔助因子的相互作用是弱的/瞬時。 目前并沒有一個通用的解決方案可以自動生成我們所需要的列表,因此當下結構域無法精確地推測出轉錄因子,文庫又是高度不統(tǒng)一的,電子信息的注解有沒有一個統(tǒng)一的標準。最新的人類轉錄因子庫發(fā)表于2009年,總共涵蓋了535個人的轉錄因子,并描述了所推測的DBD。近年來,該文庫迅速擴展。本綜述對人類轉錄因子集進行了一定程度的修訂。 本綜述手工查詢了2,765種蛋白質,為每種蛋白質創(chuàng)建了一個網(wǎng)頁,其中包含所有相關信息和外部數(shù)據(jù)庫的鏈接。本綜述考慮了全局序列比對和DNA已知的結合的殘基,以便在僅有亞基結合DNA的家族(例如,ARID,HMG和Myb / SANT)中對表征不佳的蛋白質做一個評估??紤]到可行性的因素,我們沒有搜索或記錄蛋白質修飾或結合配偶體等復雜性。 “HumanTFs”網(wǎng)站(http://humantfs.ccbr./)顯示結果,每個TF都有一個單獨的頁面,以及每種DBD類型的所有已知motif和信息以及序列比對。此網(wǎng)站還有一個用戶可以選擇提交其他信息的選項。 Table1. 判斷和識別TF特異性結合的實驗方法 最終記錄的1,639個已知或潛在的人類轉錄因子,其中大多數(shù)至少包含了兩種DBD類型中的一種(C2H2-ZFs和Homeodomains)。剩下近一半(46%)是另外六個bHLH 、bZIP 、Forkhead 、核激素受體、HMG / Sox 和ETS(圖1B)。在考慮了缺乏DNA序列特異性的已知亞類后,含有Myb / SANT和HMG結構域的TF比先前估計的少得多。1,639個TF中的絕大多數(shù)(93%)或作為單體與DNA結合或作為同源多聚體與DNA結合。且許多都包含相同DBD類型的多拷貝(圖1C),但其中大多數(shù)是C2H2-ZF,它們與DNA按列結合(圖 1A)。每種蛋白質的C2H2-ZF數(shù)量變化很大,一定程度上取決于效應結構域(圖1B )。含有KRAB的亞型中的大量C2H2-ZF可能是由于靶向單個轉座子所需的特異性。只有一小部分TF(47或?3%)含有多種類型的DBD,而POU是最常見的同源域是最常見的(圖1C )。大多數(shù)人類TF也含有其他蛋白質結構域(圖1D):其中有391種不同類型的非DNA結合結構域,與TF效應子功能的多樣化和廣泛網(wǎng)絡的概念一致。 當前的TF列表可能仍然不完整,完整的DBD系列可能仍然未被完全發(fā)掘。實際上,由于缺乏規(guī)范的DBD,此列表中的69個TF被歸類為“unknown family”。大多數(shù)這些蛋白質缺乏motif(見下文),晶體結構基本上是無法獲得的,并且與DNA結合的證據(jù)僅包括在單個文庫中鑒定的少數(shù)序列。因此,在獲得更多實驗數(shù)據(jù)結果前,應謹慎對待此類別的TF。 此外,一些已知的DBD系列可能比目前所理解的更大。例如,根據(jù)Interpro和SMART數(shù)據(jù)庫,預測的簡單的AT鉤結構域(由13個氨基酸[aa]共有序列表示)分別存在于3和21號人類基因中。然而,一個更寬泛的定義,只需要在22個堿基窗口上存在側翼為多個堿性殘基的GRP 三肽(Aravind和Landsman,1998),它存在于數(shù)百種人類蛋白質中,每種蛋白質都可以代表真正的TF。C2H2-ZF家族也值得評估,因為出現(xiàn)了更好的模型來識別這些短的(?23 aa)結構域,并將參與DNA結合的那些區(qū)域與促進與RNA或其他蛋白質相互作用的區(qū)域區(qū)分開來(Brayer和Segal,2008)。 Figure1. 人類轉錄因子合集 目前大約四分之三(1,211)的人類轉錄因子具有與其結合的motif。已知motif中的913個是通過體外高通量法(例如HT-SELEX或PBM)測定出來的。圖1B說明大多數(shù)類別的TF具有高或完全的motif覆蓋,而少數(shù)具有主要差異。例如,幾乎所有的同源結構域(188/196)都有一個已知或推斷的motif,可能是由于它們相對容易在體外研究,它們的深層次的特點能夠通過同源性推斷。相比之下,C2H2-ZF類轉錄因子目前缺少數(shù)百個motif(267/747)(圖1B),可能是因為它們難以在體外研究(許多是大蛋白),而且保守的相對較少。 許多TF識別相似的motif,通常對應到TF家族或亞家族,這個現(xiàn)象與許多先前的研究一致(圖 2A)。值得注意的是,C2H2-ZF蛋白為motif中最為多樣性的(圖2B),這與先前所研究得結構和DNA接觸殘基的多樣性一致。圖2C顯示的是NHR家族的motif,說明轉錄因子多樣性涉及單體DNA序列偏好和蛋白質復合物形成的變化。圖 2C中的許多motif被二聚體識別。在人體中總共有超過500個特異性的motif,表明廣泛的DNA序列可以作為轉錄因子結合位點。 Figure2. 特異性結合人類轉錄因子的DNA 轉錄因子的演變通常比它們的調(diào)控位點的演變慢得多。人和果蠅之間的轉錄因子直系同源物通常顯示出幾乎相同的序列特異性。盡管如此,轉錄因子確實在不斷進化,它們的motif、結合物和表達模式都在不停地改變著。人類轉錄因子中不變與改變中的一個突出例子便是大多數(shù)哺乳動物基因組編碼了數(shù)百種含有KRAB的C2H2-ZF蛋白,其中許多都顯示出了多樣化選擇的標志,在人和小鼠之間也具有復雜的直系同源模式。在人類中,KRAB C2H2-ZF蛋白通常都與轉座子(TEs)(主要是LINE和內(nèi)源性逆轉錄病毒)結合,在初期可能是通過抑制KRAB結構域的功能使它們沉默。轉座子和轉錄因子之間的“軍事競賽”為其迅速而又多樣化的變化做出了很好的解釋。 基于它們在真核基因組中的分布(圖3A ),當前的1,639個轉錄因子根據(jù)親緣關系得知其涵蓋了包括脊椎動物,四足動物,胎盤哺乳動物或靈長類動物在內(nèi)的后生動物主要群體。有趣的是,幾乎所有脊椎動物都具有同源域蛋白的可識別對應物,而幾乎所有哺乳動物特異性蛋白都含有C2H2-ZF結構域。實際上,Ensembl定義的人類TF-TF旁系同源物之間的分化都有兩種趨向:兩側對稱動物中多種TFs家族出現(xiàn)了第一波重復,由KRAB C2H2-ZF主導的第二波重復則出現(xiàn)在Amniota(圖3B,左)。早期時整個多樣性的TF家族的復制與脊椎動物中整個基因組發(fā)生兩輪復制的假說一致。該事件與細胞類型的多元化發(fā)展是大致符合的,并且復制的TF可能有助于調(diào)控新細胞類型。KRAB的輻射性增加可能在一定程度上解釋了為什么胎盤能夠很大可能的傳遞逆轉錄病毒。值得注意的是,在過去的3億年里,KRAB的輻射區(qū)域中TF-TF的復制主導了其在所有人類同源物的分布(圖3B,右)。 Figure3. 人類轉錄因子的直系同源基因和旁系同源基因 基因(包括轉錄因子)的組織和細胞類型包括TFs的特異性表達通常對應著相應的特定功能。我們使用來自人類組織圖譜中的RNA-seq數(shù)據(jù)檢查了在37個成人組織中的1,554個轉錄因子的表達模式(圖4A),采用其組織特異性表達的定量定義。這種基因表達模式的全局視圖捕獲了許多特征明確的TF的已知作用。例如,SOX2,OLIG1 和POU3F2(OCT7)幾乎只在大腦皮層中表達,而GATA4和TBX20僅在心肌中高度表達。該數(shù)據(jù)集中大約三分之一(543)的人類TF表現(xiàn)出組織特異性表達的特點,其中包括許多具有不良特征的生理作用。 在其他的TF家族中,一半(49%)是具有組織特異性的,并提供了關于其特定生理功能的線索。更高分辨率的數(shù)據(jù),例如來自單細胞RNA-seq,可以解析同一組織的不同類型細胞對轉錄因子間的聯(lián)系,使得對于細胞鑒定和受轉錄因子調(diào)控的基因有更深刻的理解。 轉錄因子占所有人類基因的約8%,并且與多種疾病和表型相關。轉錄因子突變通常是高度有害的,這也解釋了為什么基因組TF編碼位點富含超保守的位點。轉錄因子遺傳分析可能因基因調(diào)控網(wǎng)絡固有的功能冗余而變得復雜,因為表型可能難以僅在特定條件下檢測得到或表現(xiàn)出來,或者因為在群體水平上具有高度有害作用的變體不存在。盡管如此,關于臨床表型中人類TF的全球視角確實揭示了一個共同的主題。圖 4B展示出了編碼TF的基因內(nèi)或附近的大量突變相關的人類疾病表型。對于與先天性生長激素缺乏有關的垂體前葉發(fā)育不全觀察到了觀察到大量基因的富集。已知的15種基因參與該表型,其中有12種是編碼TF(p <10 -11 ),包括多個同源域和Sox家族的轉錄因子??偟膩碚f,人313個(19.1%)的轉錄因子至少與一種表型相關,顯著高于所觀察到的部分(16.2%)。相比之下,基于最近的CRISPR篩選的數(shù)據(jù)(3%對10%),轉錄因子從人類癌細胞系中的核心必需基因組中排除,可能是因為人類的轉錄因子庫已主要用于發(fā)育或組織功能特定化。 一些多基因疾病的全基因組關聯(lián)研究(GWAS)信號也富集了基因座編碼的轉錄因子(圖4C)。這些疾病中的很多都具有強烈的免疫依賴性,表明許多免疫反應相關的轉錄因子所具有的突出作用。此外,許多獨立的轉錄因子基因座具有針對多種疾病的強GWAS信號。例如,編碼Ikaros基因家族C2H2-ZFS的基因座中,突變體IKZF1 和IKFZ3,在適應性免疫應答中起到了至關重要的作用。 轉錄因子的模塊化結構有助于突變影響的機制的識別。DBD突變會改變序列特異性,位于DBD之外的突變也可能對基因表達產(chǎn)生很大的影響。在癌癥中,染色體異??梢援a(chǎn)生具有新功能的癌融合蛋白,例如Ets因子ERG和 FLI1 與RNA結合蛋白EWSR1融合。同樣的,對于任何基因,在控制TF表達的調(diào)節(jié)區(qū)內(nèi)的突變,最終導致TF功能改變。例如,在驅動MYC 表達的增強子中弱化TCF7L2(TCF-4)結合位點可降低結腸中腫瘤發(fā)生的風險。 轉錄因子作為一類獨特的基因,它們的結合位點會受所調(diào)節(jié)的DNA的變異或突變影響。目前發(fā)現(xiàn)了許多這樣的例子,其中涵蓋了大量的的轉錄因子家族疾病。更深入地了解轉錄因子對于如何找到對應目標并控制基因表達模式對于我們了解85%-93%的常見疾病相關的遺傳變異有極大的幫助。 基因組中的大多數(shù)的功能性DNA都是具有調(diào)節(jié)性的,轉錄因子在其的識別和功能發(fā)揮中起著核心作用。在許多人類疾病中TFs有著明顯的作用,使得理解轉錄因子所介導的基因調(diào)控機制的重要性更加突出。目前所面臨的挑戰(zhàn)依然存在,包括解決調(diào)節(jié)相同基因的多種元件之間的協(xié)同作用和冗余,預測增強子-啟動子的聯(lián)系,沿染色體及其三維結構上大規(guī)模調(diào)控的特點,以及各種類型的表觀遺傳記憶。解決這些挑戰(zhàn)的計算機方法是正在進行中,開發(fā)探索轉錄因子在成核和調(diào)停的實驗技術同樣也在進行著。這些進展將有助于我們達到下一個人類遺傳學前沿:以TF的方式解碼基因組。 Figure4. 人類轉錄因子的功能特性 版權聲明:本文轉自微信公眾號iProteome |
|