上一期的RNA-seq結(jié)果解讀,我們和生信小白們談了一下差異基因分析中的火山圖、韋恩圖、聚類圖(點這里查看這一期微信)。
本期咱們看看RNA-seq如何利用GO和KEGG數(shù)據(jù)庫!
GO(gene ontology)數(shù)據(jù)庫,收集的是對各種物種基因功能進行限定和描述的標(biāo)準(zhǔn)詞匯(term),是國際標(biāo)準(zhǔn)化的基因功能描述分類系統(tǒng)。根據(jù)基因產(chǎn)物的相關(guān)生物學(xué)過程( biological_process)、細(xì)胞組分(cellular_component)以及分子功能(molecular_function)三個大類分別給予定義,而每一大類下又包含更多層級具體term,這些定義與具體物種無關(guān)。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一個綜合數(shù)據(jù)庫,整合了基因組信息、化學(xué)信息和生化系統(tǒng)功能信息,目前包含了16個子數(shù)據(jù)庫。比如,KEGG PATHWAY數(shù)據(jù)庫包含了圖解的細(xì)胞代謝、膜轉(zhuǎn)運、信號傳導(dǎo)等通路信息; KEGG GENES數(shù)據(jù)庫、KEGG GENOME數(shù)據(jù)庫則包含了部分或者完整序列的基因/基因組信息;KEGG Orthology(KO)是KEGG直系同源數(shù)據(jù)庫,將各個KEGG注釋系統(tǒng)聯(lián)系在一起,將分子網(wǎng)絡(luò)和基因組信息聯(lián)系起來,根據(jù)直系同源關(guān)系,實現(xiàn)跨物種的基因組或轉(zhuǎn)錄組的功能注釋。
GO功能分類 

圖示解析: 橫坐標(biāo):GO三個基本分類(BiologicalProcess、CellularComponent、Molecular Function)以及各類的下一層級term,從中可以看到描述BP、CC或MF的具體term有哪些。通過該圖對應(yīng)的表格可以查找某一基因的具體功能信息。 縱坐標(biāo):注釋到某一term(該term及其子term)的基因數(shù)目。
有向無環(huán)圖 

圖示解析: 有向無環(huán)圖(DAG圖):GO數(shù)據(jù)庫中,3大獨立的ontology(BP、CC、MF)下面又可以獨立出不同的亞層次,層層向下構(gòu)成一個ontologies的樹型分支結(jié)構(gòu),即有向無環(huán)圖型。 RNA-seq中,對差異表達(dá)基因進行GO富集分析,采用topGO軟件包實現(xiàn)有向無環(huán)圖,展示差異基因富集的GO term及其層級關(guān)系,從上至下所定義的功能范圍越來越具體。 對BP、CC、MF三大類各取富集程度最高的前10位作為DAG圖主節(jié)點(方框表示),通過包含關(guān)系(is_a和part_of)將相關(guān)聯(lián)的GO term一起展示,顏色越深代表富集程度越高,可以看出某一個term可以有多個箭頭指向。比如 biological process term 'hexose biosynthesis' 有兩個parents:'hexose metabolism'和'monosaccharide biosynthesis',這是因為生物合成是代謝的一種,而己糖又是單糖的一種。 每一個節(jié)點(方框or橢圓),包含4行信息:GO term的id、該term的描述、GO富集的Corrected P-Value、該term下差異基因的數(shù)目/該term下基因組背景基因的數(shù)目。
散點圖 

圖示解析: RNA-seq中,對差異表達(dá)基因進行KEGG富集分析,可以通過散點圖展示。此圖中,KEGG富集程度通過Rich factor、qvalue和富集到此通路上的基因個數(shù)來衡量。 橫坐標(biāo)是Rich factor,數(shù)值越大表示富集程度越大。Rich factor=位于該pathway term下的差異表達(dá)基因數(shù)/位于該pathway term下的所有有注釋基因數(shù)。 縱坐標(biāo)是富集程度較高的pathway term(一般選取富集最顯著的20條進行展示,不足20條則全部列出)。 q value是經(jīng)過多重校驗的p value,取值范圍[0,1],以顏色表示,越紅表示q value越小,說明富集越明顯。 點的大小表示該term下差異基因的個數(shù),點越大表示基因數(shù)越多。
KEGG通路圖 

圖示解析: RNA-seq中,KEGG通路圖是將差異表達(dá)基因所處的通路信息進行展示。 對于有參考基因組的物種,轉(zhuǎn)錄組測序獲得的差異基因構(gòu)建KEGG通路圖時可以選擇物種特異性通路圖(Organism-specificpathway map),物種相關(guān)的通路節(jié)點以綠色背景的方框表示。 節(jié)點(矩形框)代表某一基因、該基因編碼的酶及這個酶參與的反應(yīng)??蛑械臄?shù)字 是EC編號。網(wǎng)頁版通路圖分析結(jié)果中,點擊該節(jié)點可以獲得具體的信息(如下圖)。550369是KEGG中的基因ID, T01004是物種標(biāo)識符,然后是基因的名稱,屬于哪個KO分類以及表達(dá)的酶,對應(yīng)的物種信息,參與哪些代謝途徑,下面還有結(jié)構(gòu)、序列信息等等。 
紅色邊框表示該差異基因是上調(diào)的, 綠色邊框表示下調(diào)。上圖展示的是有參轉(zhuǎn)錄組差異基因參與的類固醇生物合成途徑。有時還會遇到黃色邊框標(biāo)注的,表示既有上調(diào)的也有下調(diào)的。粉色邊框表示該節(jié)點是有差異的,但不區(qū)分具體上、下調(diào)。
對于沒有基因組序列的物種,選擇無參轉(zhuǎn)錄組測序,此時構(gòu)建KEGG通路圖選擇的是 KO Reference pathway,不區(qū)分具體物種信息,節(jié)點以藍(lán)色背景標(biāo)注(如下圖)。

KEGG通路圖中各種符號的含義: 
希望本期的分享能夠帶給你一點點幫助。如果大神們有更好的介紹,歡迎在評論區(qū)與大家分享交流~
文案:杜德超(轉(zhuǎn)錄調(diào)控事業(yè)部) 編輯:賈紅麗
|