在生物信息領域,高通量數(shù)據(jù)非常重要,畢竟誰也不想感受“巧婦無米之炊”的窘迫。隨著大數(shù)據(jù)時代的到來,各種大型生物公共數(shù)據(jù)庫也不斷完善,其中就包括The Cancer Genome Atlas(TCGA)數(shù)據(jù)庫。TCGA數(shù)據(jù)源大部分都是公開的,如何有效的進行收集(機械的鼠標操作)和預處理是一個頭疼的問題。

目前來能夠從TCGA數(shù)據(jù)庫中提取數(shù)據(jù)的處理工具有很多:
cBioPortal(http://www.)
UALCAN(http://ualcan.path./index.html )
starbase3.0(http://starbase./ )是常用的,上圖來源于2018年的一篇cell(PMID: 29625050)
今天小編想給大家簡單介紹下cBioPortal。該工具極大的方便了生物信息研究者獲取數(shù)據(jù),而且其中的數(shù)據(jù)集多數(shù)為已發(fā)表的數(shù)據(jù)集,增大了樣本的可研究性。但是使用起來還是有一定的局限性。
首先進入數(shù)據(jù)入口的主界面:

在cBioPortal中你可以完成visualize,analyze,discover三種功能。目前包含了88個已發(fā)表的癌癥研究中的20263個癌癥樣本。
那么該工具除了引用頻率高之外,具體可以實現(xiàn)那些功能呢?我們引用一篇文獻(PMID:28930697)的圖片結(jié)果(Fig5)給大家展示一下。

想要做的上圖的內(nèi)容(突變熱圖、元件圖、預后分析等),需要掌握cbioportal數(shù)據(jù)的操作流程。
讓我們先看下數(shù)據(jù)的查詢功能:

1.Select Cancer Study,例如我們選擇2013年MSKCC在Nat Genet上發(fā)表的 “The mutational landscape of adenoid cystic carcinoma.”
2.Select Genomic Profiles 分為突變譜和拷貝數(shù)譜
3. Select Patient/Case Set:選擇樣本集合,也可以用戶自定義樣本
4.Enter Gene Set:輸入基因集合,某一通路或者生物學過程中的基因或者是用戶自定義基因集合。

之后我們可以看到該基因集合在樣本中的改變情況,例如紅色代表擴增,綠色代表突變,可以將圖片以pdf或者svg形式保存到當?shù)亍?/p>
基因間的互斥性(mutually exclusive)和共發(fā)生性。

查看每個基因在樣本中突變的情況

以基因集合中改變的樣本和非改變的樣本之間做生存曲線(很明顯該例子并沒有明顯分開)。

網(wǎng)絡分析這部分比較有意思除了包含已知的基因集合還包括發(fā)現(xiàn)的改變的鄰居基因,而且我們還可以顯示基因的藥物靶點。


最后該入口提供了IGV可視化拷貝數(shù)變異的功能和下載功能。
那么,cbioportal數(shù)據(jù)庫還可以實現(xiàn)哪些重要的功能,以及怎么實操呢?具體可以關(guān)注我們的TCGA數(shù)據(jù)庫生信學習班。計劃如下: