下載數(shù)據(jù)切換到工作目錄:cd d/生信技能樹(shù)-視頻直播/第七講 

關(guān)于背景基因
收集一 凡是富集分析,都要有背景和選擇集 有參的,那就找參考對(duì)應(yīng)的注釋信息,作為背景 無(wú)參的,那就自己注釋,得到背景 收集二 其實(shí)pathway富集分析本身也只是提供一些參考,并非非要富集不可。因?yàn)槟承﹑athway的調(diào)控,基因直接并非相互調(diào)控,而是共同參與某個(gè)產(chǎn)物合成過(guò)程中的不同步驟。例如,某代謝性物X的合成,需要合成酶 A、B、C、D 四個(gè)合成步驟。那么A表達(dá)的變化,并不會(huì)直接影響B(tài)、C、D基因的表達(dá),只是影響代謝物X的合成量。如果沒(méi)有富集到,你就當(dāng)這個(gè)是基因注釋了,討論這些落在你感興趣的pathway中的基因,也是一種策略。
題目要求利用超幾何分布檢驗(yàn)自己寫(xiě)代碼來(lái)完成主流的GO/KEGG的富集分析,得到與以下一致的結(jié)果:

超幾何分布超幾何分布是統(tǒng)計(jì)學(xué)上一種離散概率分布。它描述了由有限個(gè)物件中抽出n個(gè)物件,成功抽出指定種類的物件的次數(shù)(不歸還)。稱為超幾何分布,是因?yàn)槠湫问脚c“超幾何函數(shù)”的級(jí)數(shù)展式的系數(shù)有關(guān)。 
基因Pathway和GO富集分析基因富集分析是分析基因表達(dá)信息的一種方法,富集是指將基因按照先驗(yàn)知識(shí),也就是基因組注釋信息進(jìn)行分類。 通過(guò)差異基因的Pathway富集分析,可以找到富集的差異基因的Pathway,尋找不同樣品的差異基因可能與哪些細(xì)胞通路的改變相關(guān)。 通過(guò)對(duì)差異基因的GO富集分析,可以找到富集的差異基因GO項(xiàng),尋找不同樣品的差異基因可能與哪些基因功能的改變相關(guān)。 對(duì)差異基因進(jìn)行GO和Pathway富集分析后,再進(jìn)行Network構(gòu)建,定位基因的功能和其參與的信號(hào)通路,并進(jìn)行清晰直觀的展示。 GO富集分析: Gene Ontology(簡(jiǎn)稱GO)是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled vocabulary)來(lái)全面描述生物體中基因和基因產(chǎn)物的屬性。GO總共有三個(gè)ontology(本體),分別描述基因的分子功能(molecular function)、細(xì)胞組分(cellular component)、參與的生物過(guò)程(biological process)。GO的基本單位是term(詞條、節(jié)點(diǎn)),每個(gè)term都對(duì)應(yīng)一個(gè)屬性。 GO功能分析一方面給出差異表達(dá)基因的GO功能分類注釋;另一方面給出差異表達(dá)基因的GO功能顯著性富集分析。 首先,我們將差異表達(dá)基因向GO數(shù)據(jù)庫(kù)(http://www./)的各term映射,并計(jì)算每個(gè)term的基因數(shù),從而得到具有某個(gè)GO功能的基因列表及基因數(shù)目統(tǒng)計(jì)。然后應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著富集的GO條目。 
其中,N為所有Unigene中具有GO注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定GO term的基因數(shù)目;m為注釋為某特定GO term的差異表達(dá)基因數(shù)目。計(jì)算得到的pvalue通過(guò)FDR校正之后,以corrected-pvalue≤0.05為閾值,滿足此條件的GO term定義為在差異表達(dá)基因中顯著富集的GO term。KEGG富集分析: Pathway顯著性富集分析以KEGG Pathway為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著性富集的Pathway。 該假設(shè)檢驗(yàn)的p-value計(jì)算公式同GO功能顯著性富集分析的相同,在這里N為所有Unigene中具有Pathway注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定Pathway的基因數(shù)目;m為注釋為某特定Pathway的差異表達(dá)基因數(shù)目。
超幾何分布檢驗(yàn)的富集分析
一般做完超幾何概率分布,對(duì)得到的p值進(jìn)行校正; 也可以查看歷史題目: 生物信息學(xué)技能面試題(第1題)-人類基因組的外顯子區(qū)域到底有多長(zhǎng)
生物信息學(xué)技能面試題(第2題)-探索人類基因組序列 生物信息學(xué)技能面試題(第3題)-探索人類基因組注釋文件
生物信息學(xué)技能面試題(第4題)-多個(gè)同樣的行列式文件合并起來(lái)
生物信息學(xué)技能面試題(第5題)-根據(jù)GTF畫(huà)基因的多個(gè)轉(zhuǎn)錄本結(jié)構(gòu)
生物信息學(xué)技能面試題(第6題)-下載最新版的KEGG信息,并且解析好
用GenePred注釋文件進(jìn)行數(shù)據(jù)分析 (這個(gè)是前5題的答案)
這些題目都是有配套的python和perl視頻講解的,部分還有R和shell的視頻講解,不過(guò),我覺(jué)得這些題目本身才是最重要的!
|