cBioPortal想必大家并不陌生,可以完成特定基因的甲基化Beta值下載,以及基因表達(dá)與甲基化水平的相關(guān)性分析! https://www./ 單純下載某個(gè)基因的甲基化數(shù)據(jù) 以肝癌中的CFTR基因?yàn)槔?/p> 下載得到文件 cBioPortal_data.txt,在excel中打開,顯示如下: 知識(shí)點(diǎn): 1、該文件存儲(chǔ)450K芯片檢測(cè)的CFTR基因在442個(gè)肝癌組織樣本中的甲基化beta值,取值在0-1之間。 2、有部分樣本并未進(jìn)行甲基化芯片檢測(cè),則標(biāo)識(shí)為NaN(即,排除空值,實(shí)際只有379個(gè)LIHC樣本檢測(cè)到了CFTR基因甲基化)! 3、cBioPortal中可直接得到基因甲基化值,而不像Xena中得到基因上所有探針的甲基化值(而無法得到基因水平甲基化值)! 那么 cBioPortal是如何得到基因水平甲基化的呢? 基因表達(dá)與甲基化相關(guān)性分析 與直接下載數(shù)據(jù)不同,進(jìn)行分析需要通過Query模式: 輸入目標(biāo)基因后點(diǎn)擊Submit Query,進(jìn)行如下操作: 需要注意的是: 1、可視化結(jié)果不支持在線修整,但支持下載數(shù)據(jù)(故可以用R等工具重新繪制圖形)。通過上圖標(biāo)識(shí)5,可以下載分析和可視化所用的數(shù)據(jù)(Data),得到plot.txt文件,在excel中打開顯示如下: 可見,同時(shí)得到該基因的甲基化和mRNA表達(dá)值,這里只有373個(gè)樣本的數(shù)據(jù),因?yàn)橐WC該樣本同時(shí)具有甲基化和mRNA表達(dá)的檢測(cè)。 2、下載的數(shù)據(jù)中,mRNA表達(dá)定量方法是RSEM值,包含較多0值,而在可視化時(shí)點(diǎn)選 Apply Log Scale會(huì)將數(shù)據(jù)log2轉(zhuǎn)化,推測(cè)原值+0.01,即log2(RSEM + 0.01),故導(dǎo)致部分樣本mRNA表達(dá)量在-6左右,顯示一橫排點(diǎn)的的情況。其實(shí),更多的是類似Xena,做log2(RSEM+1)轉(zhuǎn)換將表達(dá)量控制在0以上。 3、本例,相關(guān)性統(tǒng)計(jì)分析結(jié)果中顯示的相關(guān)系數(shù)為正值,表示CFTR基因在肝癌中的甲基化和基因表達(dá)呈正相關(guān)關(guān)系!這似乎有悖于我們常規(guī)的認(rèn)知...我們知道對(duì)于甲基化芯片來說,一個(gè)基因上是設(shè)計(jì)了不同位置的多個(gè)探針的,而cBioPortal只選擇了一個(gè)探針來代表基因,即甲基化beta值與mRNA表達(dá)負(fù)相關(guān)性最強(qiáng)的探針:
https://www./faq https://groups.google.com/forum/#!topic/cbioportal/2OVGjC8xPT8 https://www./p/182962/ 綜上 cBioPortal中下載/用于分析展示的所謂基因水平甲基化,其實(shí)只是某個(gè)探針的甲基化beta值~ 拋出問題 cBioPortal中無法獲得探針?biāo)郊谆痓eta值。那么,如何實(shí)現(xiàn)各探針甲基化水平與mRNA表達(dá)的相關(guān)性分析?即如何驗(yàn)證cBioPortal最終探針選擇的準(zhǔn)確性? |
|