日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

生信編程直播第七題:寫(xiě)超幾何分布檢驗(yàn)!

 健明 2021-07-14

下載數(shù)據(jù)

切換到工作目錄:cd d/生信技能樹(shù)-視頻直播/第七講

  • kegg2gene(第六講kegg數(shù)據(jù)解析結(jié)果)

    暫時(shí)不用新的kegg注釋數(shù)據(jù)為了能夠統(tǒng)一答案

  • 差異基因list和背景基因list


關(guān)于背景基因

  • 收集一 
    凡是富集分析,都要有背景和選擇集 
    有參的,那就找參考對(duì)應(yīng)的注釋信息,作為背景 
    無(wú)參的,那就自己注釋,得到背景

  • 收集二 
    其實(shí)pathway富集分析本身也只是提供一些參考,并非非要富集不可。因?yàn)槟承﹑athway的調(diào)控,基因直接并非相互調(diào)控,而是共同參與某個(gè)產(chǎn)物合成過(guò)程中的不同步驟。例如,某代謝性物X的合成,需要合成酶 A、B、C、D 四個(gè)合成步驟。那么A表達(dá)的變化,并不會(huì)直接影響B(tài)、C、D基因的表達(dá),只是影響代謝物X的合成量。如果沒(méi)有富集到,你就當(dāng)這個(gè)是基因注釋了,討論這些落在你感興趣的pathway中的基因,也是一種策略。


題目要求

利用超幾何分布檢驗(yàn)自己寫(xiě)代碼來(lái)完成主流的GO/KEGG的富集分析,得到與以下一致的結(jié)果: 


超幾何分布

超幾何分布是統(tǒng)計(jì)學(xué)上一種離散概率分布。它描述了由有限個(gè)物件中抽出n個(gè)物件,成功抽出指定種類的物件的次數(shù)(不歸還)。稱為超幾何分布,是因?yàn)槠湫问脚c“超幾何函數(shù)”的級(jí)數(shù)展式的系數(shù)有關(guān)。 


基因Pathway和GO富集分析

基因富集分析是分析基因表達(dá)信息的一種方法,富集是指將基因按照先驗(yàn)知識(shí),也就是基因組注釋信息進(jìn)行分類。 通過(guò)差異基因的Pathway富集分析,可以找到富集的差異基因的Pathway,尋找不同樣品的差異基因可能與哪些細(xì)胞通路的改變相關(guān)。 
通過(guò)對(duì)差異基因的GO富集分析,可以找到富集的差異基因GO項(xiàng),尋找不同樣品的差異基因可能與哪些基因功能的改變相關(guān)。 對(duì)差異基因進(jìn)行GO和Pathway富集分析后,再進(jìn)行Network構(gòu)建,定位基因的功能和其參與的信號(hào)通路,并進(jìn)行清晰直觀的展示。

  • GO富集分析: 
    Gene Ontology(簡(jiǎn)稱GO)是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled vocabulary)來(lái)全面描述生物體中基因和基因產(chǎn)物的屬性。GO總共有三個(gè)ontology(本體),分別描述基因的分子功能(molecular function)、細(xì)胞組分(cellular component)、參與的生物過(guò)程(biological process)。GO的基本單位是term(詞條、節(jié)點(diǎn)),每個(gè)term都對(duì)應(yīng)一個(gè)屬性。 GO功能分析一方面給出差異表達(dá)基因的GO功能分類注釋;另一方面給出差異表達(dá)基因的GO功能顯著性富集分析。 首先,我們將差異表達(dá)基因向GO數(shù)據(jù)庫(kù)(http://www./)的各term映射,并計(jì)算每個(gè)term的基因數(shù),從而得到具有某個(gè)GO功能的基因列表及基因數(shù)目統(tǒng)計(jì)。然后應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著富集的GO條目。

  • 其中,N為所有Unigene中具有GO注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定GO term的基因數(shù)目;m為注釋為某特定GO term的差異表達(dá)基因數(shù)目。計(jì)算得到的pvalue通過(guò)FDR校正之后,以corrected-pvalue≤0.05為閾值,滿足此條件的GO term定義為在差異表達(dá)基因中顯著富集的GO term。
  • KEGG富集分析: 
    Pathway顯著性富集分析以KEGG Pathway為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著性富集的Pathway。 
    該假設(shè)檢驗(yàn)的p-value計(jì)算公式同GO功能顯著性富集分析的相同,在這里N為所有Unigene中具有Pathway注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定Pathway的基因數(shù)目;m為注釋為某特定Pathway的差異表達(dá)基因數(shù)目。


超幾何分布檢驗(yàn)的富集分析

一般做完超幾何概率分布,對(duì)得到的p值進(jìn)行校正;

也可以查看歷史題目:

生物信息學(xué)技能面試題(第1題)-人類基因組的外顯子區(qū)域到底有多長(zhǎng)

生物信息學(xué)技能面試題(第2題)-探索人類基因組序列

生物信息學(xué)技能面試題(第3題)-探索人類基因組注釋文件

生物信息學(xué)技能面試題(第4題)-多個(gè)同樣的行列式文件合并起來(lái)

生物信息學(xué)技能面試題(第5題)-根據(jù)GTF畫(huà)基因的多個(gè)轉(zhuǎn)錄本結(jié)構(gòu)

生物信息學(xué)技能面試題(第6題)-下載最新版的KEGG信息,并且解析好

用GenePred注釋文件進(jìn)行數(shù)據(jù)分析 (這個(gè)是前5題的答案)

這些題目都是有配套的python和perl視頻講解的,部分還有R和shell的視頻講解,不過(guò),我覺(jué)得這些題目本身才是最重要的!

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多