隨著測(cè)序價(jià)格下降,各位大牛們手頭積累的測(cè)序數(shù)據(jù)越來(lái)越多,傳統(tǒng)的兩兩比對(duì)分析不僅帶來(lái)了復(fù)雜的比對(duì)組合,而且無(wú)法系統(tǒng)地反饋我們各樣本基因之間的相互作用模式。這時(shí)候我們就不得不另辟蹊徑,Weighted Gene Co-Expression Network Analysis(以下簡(jiǎn)稱WGCNA)就是一個(gè)適合復(fù)雜樣本的分析方法。 WGCNA中文名譯作加權(quán)關(guān)聯(lián)網(wǎng)絡(luò)分析,小R覺(jué)得這個(gè)翻譯有點(diǎn)生硬,還是英文來(lái)得比較直接。它是一種從測(cè)序數(shù)據(jù)中挖掘模塊(module)信息的算法。在該方法中module被定義為一組具有相似表達(dá)譜的基因, 如果某些基因在一個(gè)生理過(guò)程或不同組織中總是具有相類似的表達(dá)變化,那么我們有理由認(rèn)為這些基因在功能上是相關(guān)的,可以把他們定義為一個(gè)模塊(module)。這似乎與聚類分析所得到的結(jié)果有那么一點(diǎn)相似,但不同的是,WGCNA的聚類準(zhǔn)則具有生物學(xué)意義,它是對(duì)基因間表達(dá)量的相關(guān)系數(shù)取n次冪,使得相關(guān)系數(shù)數(shù)值的分布逐漸符合無(wú)尺度分布,可以將基因按照表達(dá)模式進(jìn)行分類,將模式相似的基因歸為一個(gè)模塊(module),而非常規(guī)的聚類方法,因此該方法所得出的結(jié)果具有更高的可信度。當(dāng)基因module被定義出來(lái)后,我們可以利用這些結(jié)果做很多進(jìn)一步的工作。 在co-expression network中,每一個(gè)基因在一個(gè)特定時(shí)間或空間的表達(dá)情況被視做一個(gè)點(diǎn)(node),為了得到基因間的關(guān)聯(lián)情況,我們需要計(jì)算任何兩個(gè)基因間的相關(guān)系數(shù)(Person Coefficient),第i個(gè)基因和第j個(gè)基因的Person Coefficient,即兩個(gè)基因的表達(dá)相似性。為了知道兩個(gè)基因的表達(dá)譜是否具有相似性,需要人為規(guī)定一個(gè)閾值,只有當(dāng)基因間的Person Coefficient達(dá)到這一閾值后(如0.8)我們才認(rèn)為這兩個(gè)基因是相似的,否則則不相似。但是這種分析方法存在一個(gè)很明顯的局限,即我們沒(méi)有理由認(rèn)為Person Coefficient為0.8的兩個(gè)基因與Coefficient為0.79的兩個(gè)基因是有顯著差別的,但是以上算法卻無(wú)法避免這一處境,WGCNA采用了一種基于軟閾值的判定方法很好地避免了這一問(wèn)題。 網(wǎng)絡(luò)的數(shù)學(xué)名稱是圖,在圖論中對(duì)于每一個(gè)節(jié)點(diǎn)有一個(gè)重要概念,即:度。一個(gè)點(diǎn)的度是指圖中該點(diǎn)所關(guān)聯(lián)的邊數(shù)。 如上圖所示,如果不加以思考,人們很容易認(rèn)為生活中常見(jiàn)的網(wǎng)絡(luò)會(huì)是一種random network,即每一個(gè)節(jié)點(diǎn)的度相對(duì)平均。然而第二種圖,即scale-free network才是一種更穩(wěn)定的選擇。Scale-free network具有這樣的特點(diǎn),即存在少數(shù)節(jié)點(diǎn)具有明顯高于一般點(diǎn)的度,這些點(diǎn)被稱為hub。由少數(shù)hub與其它節(jié)點(diǎn)關(guān)聯(lián),最終構(gòu)成整個(gè)網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)的節(jié)點(diǎn)度數(shù)與具有該度數(shù)的節(jié)點(diǎn)個(gè)數(shù)間服從power distribution。這為我們尋找最佳參數(shù)提供了理論依據(jù)。生物體選擇scale-free network而不是random network是有它進(jìn)化上的原因的,顯然對(duì)于scale-free network,少數(shù)關(guān)鍵基因執(zhí)行著主要功能,只要保證hub的完整性,整個(gè)生命體系的基本活動(dòng)在一定刺激影響下將不會(huì)受到太大影響。 前面已經(jīng)講過(guò)基因間的相關(guān)系數(shù)的計(jì)算了,計(jì)算完相關(guān)系數(shù)之后理論上可以將基因按照表達(dá)模式進(jìn)行分類,將模式相似的基因歸為一個(gè)模塊。這樣做有什么好處呢? 上文中我們提到理論上表達(dá)模式相似的基因可能就會(huì)參與相似的通路,或有相似的功能。通過(guò)這樣的分類,信息量就被簡(jiǎn)化了。原來(lái)是成千上萬(wàn)個(gè)基因,現(xiàn)在被分成了幾十個(gè)模塊。下圖就是將基因分為不同模塊的結(jié)果圖,每種顏色都代表一個(gè)模塊。 將模塊劃分好之后,我們?nèi)绾握业阶顬殛P(guān)鍵的那個(gè)模塊呢?下面小R給大家提供3種研究策略。 1.模塊的功能富集 對(duì)各個(gè)模塊都進(jìn)行 KEGG、GO等功能富集分析,找出與我們研究性狀(比方說(shuō)光合作用或形態(tài)建成等等)相關(guān)通路相關(guān)性最強(qiáng)的模塊進(jìn)行深入挖掘。 2.模塊與性狀之間的相關(guān)性 模塊的本質(zhì)上就是一群表達(dá)模式相似的基因的大集合。我們可以利用數(shù)學(xué)的方法,算出這群基因表達(dá)量的綜合值來(lái)代表這個(gè)模塊,將這個(gè)值叫做“模塊特征值”。也可以這么理解,每個(gè)模塊就是一個(gè) “超級(jí)基因”,它的表達(dá)量是所有成員共同作用的結(jié)果。假設(shè)最初測(cè)序的樣本是50只體重各異的小鼠, 而現(xiàn)在分析后得到30個(gè)“超級(jí)基因”,那么到底哪個(gè)“超級(jí)基因”值得我們后續(xù)研究呢? 答案很簡(jiǎn)單,計(jì)算這些超級(jí)基因與體重之間的關(guān)系,找到相關(guān)性高的那個(gè)“超級(jí)基因”就是我們后續(xù)要重點(diǎn)研究的模塊。 3.模塊與樣本間的相關(guān)系數(shù) 如果我們研究的不是單一性狀那該如何分析呢?比如,草莓花發(fā)育的12個(gè)時(shí)期,6個(gè)不同的花組織。我想知道在每個(gè)時(shí)期每個(gè)組織中發(fā)揮作用的“超級(jí)基因”,那該如何下手呢?這個(gè)時(shí)候我們就需要計(jì)算每個(gè)模塊的特征值與樣本間的相關(guān)性,來(lái)研究每個(gè)模塊最喜歡在哪個(gè)樣本中表達(dá)。以下圖為例,每一行代表不同的模塊,每一列代表不同樣本。相關(guān)性由低到高用由藍(lán)到紅的顏色來(lái)表示。從圖中我們可以直觀的看出每個(gè)模塊和各個(gè)樣品間的關(guān)聯(lián)結(jié)果,比如Lightgreen和樣品Anther_7-8相關(guān)性最強(qiáng)。 通過(guò)以上三種策略,就可以保證找到與我們研究密切相關(guān)的模塊,下一步,我們就要進(jìn)入模塊內(nèi)部一探究竟了。上文中我們介紹了無(wú)尺度網(wǎng)絡(luò),它對(duì)于我們挖掘模塊的關(guān)鍵信息有兩個(gè)價(jià)值: 1.找到模塊的核心基因(上文提到的hub) 模塊中的各基因成員在關(guān)系上并非是平等的。我們把處于調(diào)控網(wǎng)絡(luò)中心的基因稱為核心基因(hub gene),這類基因通常是轉(zhuǎn)錄因子等關(guān)鍵的調(diào)控因子,是值得我們優(yōu)先深入分析和挖掘的對(duì)象。而周邊那些打醬油的成員,優(yōu)先級(jí)可以往后放一放; 2.利用關(guān)系預(yù)測(cè)基因功能 在網(wǎng)絡(luò)中,被調(diào)控線連接的基因,其表達(dá)模式是相似的,我們可以認(rèn)為它們有相似的功能。所以,在這個(gè)網(wǎng)絡(luò)中,如果線條一端的基因功能是已知的,那么就可以預(yù)測(cè)線條另一端功能未知的基因也有相似的功能,這就為我們下一步功能驗(yàn)證未知基因打開(kāi)了一扇窗戶。 上圖即我們根據(jù)模塊內(nèi)部各基因的信息制作的基因相關(guān)網(wǎng)絡(luò)圖,每個(gè)點(diǎn)代表一個(gè)基因,基因之間的連接線表示共表達(dá)關(guān)系。處于核心地位的轉(zhuǎn)錄因子用大圈表示。 長(zhǎng)按識(shí)別指紋加關(guān)注 為您的科研保駕護(hù)航 |
|