一、簡(jiǎn)介 腫瘤基因組圖譜 (The Cancer Genome Atlas,TCGA)計(jì)劃由美國(guó) National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年聯(lián)合啟動(dòng)的項(xiàng)目。目前收錄了來(lái)自11000個(gè)病人,33個(gè)癌癥的數(shù)據(jù),2.5P的數(shù)據(jù)量。 但是TCGA只對(duì)授權(quán)的用戶開(kāi)放Level1-Level3數(shù)據(jù)訪問(wèn)的權(quán)限,而普通用戶只能訪問(wèn)Level3的分析結(jié)果。即TCGA數(shù)據(jù)庫(kù)的普通用戶無(wú)法用Level1的數(shù)據(jù)進(jìn)行個(gè)性化的高級(jí)分析。同時(shí),這些用戶也不能有效結(jié)合重要的臨床信息進(jìn)行數(shù)據(jù)的深入挖掘,嚴(yán)重限制用戶對(duì)數(shù)據(jù)的有效利用。 收錄的癌癥類型,詳見(jiàn):https://cancergenome./cancersselected Platform Design
更多閱讀:https://cancergenome./abouttcga/aboutdata/platformdesign TCGA數(shù)據(jù)類型 數(shù)據(jù)類型包括:Clinical Data,Images,Microsatellite Instability (MSI),DNA Sequencing,miRNA Sequencing,Protein Expression,mRNA Sequencing,Total RNA Sequencing ,Array-based Expression ,DNA Methylation, Copy Number 更詳盡的關(guān)于數(shù)據(jù)類型和數(shù)據(jù)等級(jí),參見(jiàn):https://cancergenome./abouttcga/aboutdata/datalevelstypes 癌癥樣本組織處理
TCGA個(gè)部門分工
資料分享
二、數(shù)據(jù)下載 雖然在TCGA中直接下載數(shù)據(jù)的方法較為繁瑣,但是有多個(gè)網(wǎng)站提供TCGA數(shù)據(jù)(包括表達(dá)和臨床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最為完整和可靠的。GDAC由美國(guó)MIT和Harvard共建的Broadinstitute運(yùn)行,UCSC運(yùn)行著Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供較為完善的TCGA數(shù)據(jù)為基礎(chǔ)的各類信息檢索服務(wù)。 下載的數(shù)據(jù)分為兩個(gè)權(quán)限:
這部分?jǐn)?shù)據(jù)不涉及個(gè)人信息,下載這部分?jǐn)?shù)據(jù)不需要用戶認(rèn)證,包括的數(shù)據(jù)
因?yàn)檫@部分信息設(shè)計(jì)到個(gè)人信息,所有需要用戶申請(qǐng),包括的數(shù)據(jù):
下載途徑
自2016年7月15日起,TCGA(The Cancer Genomic Atlas) DATA PORTAL不再提供數(shù)據(jù)服務(wù),所有數(shù)據(jù)將轉(zhuǎn)入GDC(Genomic Data Commons) DATA PORTAL。GDC網(wǎng)站下載TCGA數(shù)據(jù),圖形界面,操作簡(jiǎn)單。 GDC提供兩種數(shù)據(jù)下載方式: (1)對(duì)于少量數(shù)據(jù),在購(gòu)物車內(nèi)點(diǎn)擊download,選擇cart可以直接下載購(gòu)物車內(nèi)的數(shù)據(jù) (2)對(duì)于大量數(shù)據(jù),從購(gòu)物車中直接下載易出現(xiàn)錯(cuò)誤。我們可以點(diǎn)擊download下的manifest,然后利用GDC Transfer Tool (gdc-client),在Terminal內(nèi)輸入如下命令進(jìn)行批量下載: 更多閱讀:http://www./thread-821-1-1.html
網(wǎng)站是:https://gdac./ 客戶端工具是firehose_get ,https://confluence./display/GDAC/Download 這里的數(shù)據(jù)也來(lái)源于 portal.gdc.cancer.gov,經(jīng)過(guò)了簡(jiǎn)單的合并,將每種癌癥相同類型的數(shù)據(jù)合并到了一個(gè)文件中(例如443個(gè)胃癌樣本的RNA表達(dá)量數(shù)據(jù)都合并到了一個(gè)文件中,非常適合用R進(jìn)行后續(xù)的分析) 更多閱讀: http://www./thread-822-1-1.html http://www./thread-822-1-2.html
cbioportal地址是:http://www./ 他們給網(wǎng)站做了一個(gè)R包的API為cgdsR,整合和簡(jiǎn)化了包括TCGA,ICGC以及GEO等多個(gè)癌癥基因組數(shù)據(jù)庫(kù)的內(nèi)容,提供友好可視化的界面,可供下載。 主要展示基因的somatic 突變譜,拷貝數(shù)變化,mRNA&miRNA表達(dá)量變化,DNA甲基化以及蛋白質(zhì)表達(dá)的情況,并結(jié)合患者的臨床資料,展示了KM生存曲線。 更多閱讀:http://www./thread-824-1-3.html
Synapse是需要注冊(cè)的,但是是免費(fèi)注冊(cè)的,很簡(jiǎn)單,用谷歌賬戶注冊(cè)即可。 https://www./#!Synapse:syn300013 這里面存放的就是一系列TCGA大文章的數(shù)據(jù),一些人整理好的,所以非常方便的可以使用!比如,我們可以獲取 Lung Squamous Cell Carcinoma的生存分析數(shù)據(jù) https://www./#!Synapse:syn1446127/version/3 三、常用分析工具
是一個(gè)基于TCGA數(shù)據(jù)庫(kù),進(jìn)行可視化分析的網(wǎng)頁(yè)。 官網(wǎng): http:// a. 首先進(jìn)入這個(gè)網(wǎng)頁(yè)(http://),然后可以看到下面這個(gè)界面,首先選擇你想要分析的數(shù)據(jù)庫(kù)和具體的數(shù)據(jù) b. 接著勾選你要分析的數(shù)據(jù)到底都是啥,主要可以分析的是MUT(Mutation,突變),CNA(Copy Number Alterations,拷貝數(shù)變化),EXP(mRNA Expression,mRNA表達(dá))和PORT/RPPA(Protein/ phosphoprotein level,蛋白表達(dá)或磷酸化變化)。但要注意的是,并不是所有數(shù)據(jù)都具備這四個(gè)選項(xiàng),大多數(shù)只有MUT和CNA這兩組數(shù)據(jù),有些具有EXP數(shù)據(jù)和PORT數(shù)據(jù)。接著,要選擇你要研究的基因,有一個(gè)下拉菜單可以給你參考,比如會(huì)有類似信號(hào)通路上的明星分子集合這類,你可以按照需要選擇。當(dāng)然,也可以自己輸入基因名 c. 確認(rèn)后就可以進(jìn)入結(jié)果頁(yè)面了,主要是顯示樣本中較為直觀的變化,比如突變、缺失、RNA表達(dá)、磷酸化變化等等。
更多閱讀:http://www./thread-999-1-2.html
官網(wǎng):http://bioinformatics./main/TANRIC:Overview 更多閱讀:http://www./thread-1056-1-1.html
官網(wǎng):http://gepia./index.html 這個(gè)數(shù)據(jù)庫(kù)可以分析有什么功能呢? a. 給一個(gè)基因,告訴你在所有腫瘤組織里面的表達(dá)情況,同時(shí)還展示其在癌和癌旁的表達(dá) b. 給一個(gè)基因,自動(dòng)做生存分析 c. 給一個(gè)基因,告訴你他的共表達(dá)基因,或者叫表達(dá)模式相似的基因 d. 給兩個(gè)基因,告訴你他在特定組織的相關(guān)性 e. 可以做編碼基因,也可以做非編碼基因
官網(wǎng):http://www./ 這是一個(gè)整合了TCGA的各種RNA數(shù)據(jù)和患者臨床數(shù)據(jù),提供生存分析的網(wǎng)站,灰常簡(jiǎn)單好用。
官網(wǎng):http://www./tcpa/ 更多閱讀:http://www./thread-1293-1-1.html
可以對(duì)任何癌種,根據(jù)任何臨床指標(biāo)進(jìn)行分sub-group之后進(jìn)行任何形式的生存分析,比較分析,還有相關(guān)分析。 更多閱讀: http://www./thread-1086-1-1.html
網(wǎng)站是:https:///home TCGA的數(shù)據(jù)挖掘大文章類型,從細(xì)胞群里里面區(qū)分各種免疫細(xì)胞
官網(wǎng):http:/// 整合了TCGA中的DNA甲基化,表達(dá)量及臨床數(shù)據(jù),主要用來(lái)探索甲基化,基因表達(dá)和臨床表型之間的關(guān)聯(lián)
Oncomine是目前最大的癌癥基因芯片數(shù)據(jù)庫(kù)更多閱讀:http://www./thread-1242-1-1.html 參考資料 http://www./thread-1080-1-1.html http://www./thread-306-1-1.html http://www./thread-307-1-1.html http://www./thread-827-1-1.html http://www./thread-1290-1-1.html http://paper.dxy.cn/article/511878 https://cancergenome./abouttcga/overview 專題學(xué)習(xí)目錄 生信菜鳥(niǎo)團(tuán)-專題學(xué)習(xí)目錄(1) 生信菜鳥(niǎo)團(tuán)-專題學(xué)習(xí)目錄(2) 還有更多文章,請(qǐng)移步公眾號(hào)閱讀
|
|