日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)庫(kù)專題之TCGA

 link171 2018-06-01

一、簡(jiǎn)介

腫瘤基因組圖譜 (The Cancer Genome Atlas,TCGA)計(jì)劃由美國(guó) National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年聯(lián)合啟動(dòng)的項(xiàng)目。目前收錄了來(lái)自11000個(gè)病人,33個(gè)癌癥的數(shù)據(jù),2.5P的數(shù)據(jù)量。


但是TCGA只對(duì)授權(quán)的用戶開(kāi)放Level1-Level3數(shù)據(jù)訪問(wèn)的權(quán)限,而普通用戶只能訪問(wèn)Level3的分析結(jié)果。即TCGA數(shù)據(jù)庫(kù)的普通用戶無(wú)法用Level1的數(shù)據(jù)進(jìn)行個(gè)性化的高級(jí)分析。同時(shí),這些用戶也不能有效結(jié)合重要的臨床信息進(jìn)行數(shù)據(jù)的深入挖掘,嚴(yán)重限制用戶對(duì)數(shù)據(jù)的有效利用。


收錄的癌癥類型,詳見(jiàn):https://cancergenome./cancersselected

Platform Design

  • Applied Biosystems Sequence data

  • Agilent 244K Custom Gene Expression

  • Agilent SurePrint G3 Human CGH Microarray Kit

  • Affymetrix Genome-Wide Human SNP Array

  • Agilent 8 x 15K Human miRNA-specific microarray

  • Illumina Genome Analyzer DNA Sequencing等等

更多閱讀:https://cancergenome./abouttcga/aboutdata/platformdesign    TCGA數(shù)據(jù)類型

數(shù)據(jù)類型包括:Clinical Data,Images,Microsatellite Instability (MSI),DNA Sequencing,miRNA Sequencing,Protein Expression,mRNA Sequencing,Total RNA Sequencing ,Array-based Expression ,DNA Methylation, Copy Number

更詳盡的關(guān)于數(shù)據(jù)類型和數(shù)據(jù)等級(jí),參見(jiàn):https://cancergenome./abouttcga/aboutdata/datalevelstypes                

癌癥樣本組織處理

  1. 癌癥病人自愿捐贈(zèng)腫瘤組織及正常組織樣本,由人類癌癥生物標(biāo)本核心資源庫(kù)承擔(dān)癌癥組織標(biāo)本和正常組織標(biāo)本的采集、處理和分配工作。

  2. 組織樣本經(jīng)過(guò)嚴(yán)格標(biāo)準(zhǔn)處理(處理標(biāo)準(zhǔn)根據(jù)不同后續(xù)分析類型而異,具體標(biāo)準(zhǔn)請(qǐng)參見(jiàn)),確保質(zhì)量可以用于進(jìn)一步分析及測(cè)序,并由相關(guān)中心采用高通量測(cè)序技術(shù)進(jìn)行基因和基因組排序。

  3. 獲得的臨床資料中,可以識(shí)別病人身份的信息去掉。

TCGA個(gè)部門分工

  1. TCGA 基因組分析中心(GCC)比對(duì)腫瘤和正常組織,尋找異常的基因重組現(xiàn)象。

  2. 高通量測(cè)序中心(GSC)分析與各癌癥或者亞型相關(guān)的基因突變、擴(kuò)增或者缺失。

  3. 資料分析中心(GDAC)進(jìn)行資料的整理、匯總、并提供圖表報(bào)告給全體研究團(tuán)隊(duì)。

資料分享

  1. 資料綜合中心(DCC)集中處理各個(gè)團(tuán)隊(duì)產(chǎn)生的資料,定期公開(kāi)于網(wǎng)絡(luò)上供全世界研究人員利用。

  2. 提供公開(kāi)的資料下載網(wǎng)站入口以方便進(jìn)行資料搜索和下載

二、數(shù)據(jù)下載

雖然在TCGA中直接下載數(shù)據(jù)的方法較為繁瑣,但是有多個(gè)網(wǎng)站提供TCGA數(shù)據(jù)(包括表達(dá)和臨床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最為完整和可靠的。GDAC由美國(guó)MIT和Harvard共建的Broadinstitute運(yùn)行,UCSC運(yùn)行著Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供較為完善的TCGA數(shù)據(jù)為基礎(chǔ)的各類信息檢索服務(wù)。

下載的數(shù)據(jù)分為兩個(gè)權(quán)限:

  1. 公開(kāi)的數(shù)據(jù)

這部分?jǐn)?shù)據(jù)不涉及個(gè)人信息,下載這部分?jǐn)?shù)據(jù)不需要用戶認(rèn)證,包括的數(shù)據(jù)

  • De-identified clinical and demographic data

  • Gene expression data

  • Copy number alterations in regions of the genome

  • Epigenetic data

  • Summaries of data compiled across individuals

  • Anonymized single amplicon DNA sequence data

  1. 受控的數(shù)據(jù)

因?yàn)檫@部分信息設(shè)計(jì)到個(gè)人信息,所有需要用戶申請(qǐng),包括的數(shù)據(jù):

  • Primary sequence data (BAM and FASTQ files)

  • SNP6 array level 1 and level 2 data

  • Exon array level 1 and level 2 data

  • VCFs

  • Certain information in MAFs

下載途徑

  1. GDC

自2016年7月15日起,TCGA(The Cancer Genomic Atlas) DATA PORTAL不再提供數(shù)據(jù)服務(wù),所有數(shù)據(jù)將轉(zhuǎn)入GDC(Genomic Data Commons) DATA PORTAL。GDC網(wǎng)站下載TCGA數(shù)據(jù),圖形界面,操作簡(jiǎn)單。

GDC提供兩種數(shù)據(jù)下載方式:

(1)對(duì)于少量數(shù)據(jù),在購(gòu)物車內(nèi)點(diǎn)擊download,選擇cart可以直接下載購(gòu)物車內(nèi)的數(shù)據(jù)

(2)對(duì)于大量數(shù)據(jù),從購(gòu)物車中直接下載易出現(xiàn)錯(cuò)誤。我們可以點(diǎn)擊download下的manifest,然后利用GDC Transfer Tool (gdc-client),在Terminal內(nèi)輸入如下命令進(jìn)行批量下載:  ./gdc-client download -m manifest_xxx.txt

更多閱讀:http://www./thread-821-1-1.html

  1. gdac和firehose

網(wǎng)站是:https://gdac./

客戶端工具是firehose_get ,https://confluence./display/GDAC/Download

這里的數(shù)據(jù)也來(lái)源于 portal.gdc.cancer.gov,經(jīng)過(guò)了簡(jiǎn)單的合并,將每種癌癥相同類型的數(shù)據(jù)合并到了一個(gè)文件中(例如443個(gè)胃癌樣本的RNA表達(dá)量數(shù)據(jù)都合并到了一個(gè)文件中,非常適合用R進(jìn)行后續(xù)的分析)

更多閱讀:

http://www./thread-822-1-1.html

http://www./thread-822-1-2.html

  1. cgdsR和cbioportal

cbioportal地址是:http://www./

他們給網(wǎng)站做了一個(gè)R包的API為cgdsR,整合和簡(jiǎn)化了包括TCGA,ICGC以及GEO等多個(gè)癌癥基因組數(shù)據(jù)庫(kù)的內(nèi)容,提供友好可視化的界面,可供下載。

主要展示基因的somatic 突變譜,拷貝數(shù)變化,mRNA&miRNA表達(dá)量變化,DNA甲基化以及蛋白質(zhì)表達(dá)的情況,并結(jié)合患者的臨床資料,展示了KM生存曲線。

更多閱讀:http://www./thread-824-1-3.html

  1. Synapse

Synapse是需要注冊(cè)的,但是是免費(fèi)注冊(cè)的,很簡(jiǎn)單,用谷歌賬戶注冊(cè)即可。

https://www./#!Synapse:syn300013

這里面存放的就是一系列TCGA大文章的數(shù)據(jù),一些人整理好的,所以非常方便的可以使用!比如,我們可以獲取 Lung Squamous Cell Carcinoma的生存分析數(shù)據(jù)

https://www./#!Synapse:syn1446127/version/3

三、常用分析工具

  1. cBioPortal(cBio Cancer Genomics Portal)

是一個(gè)基于TCGA數(shù)據(jù)庫(kù),進(jìn)行可視化分析的網(wǎng)頁(yè)。

官網(wǎng): http://

a. 首先進(jìn)入這個(gè)網(wǎng)頁(yè)(http://),然后可以看到下面這個(gè)界面,首先選擇你想要分析的數(shù)據(jù)庫(kù)和具體的數(shù)據(jù)

b. 接著勾選你要分析的數(shù)據(jù)到底都是啥,主要可以分析的是MUT(Mutation,突變),CNA(Copy Number Alterations,拷貝數(shù)變化),EXP(mRNA Expression,mRNA表達(dá))和PORT/RPPA(Protein/ phosphoprotein level,蛋白表達(dá)或磷酸化變化)。但要注意的是,并不是所有數(shù)據(jù)都具備這四個(gè)選項(xiàng),大多數(shù)只有MUT和CNA這兩組數(shù)據(jù),有些具有EXP數(shù)據(jù)和PORT數(shù)據(jù)。接著,要選擇你要研究的基因,有一個(gè)下拉菜單可以給你參考,比如會(huì)有類似信號(hào)通路上的明星分子集合這類,你可以按照需要選擇。當(dāng)然,也可以自己輸入基因名

c. 確認(rèn)后就可以進(jìn)入結(jié)果頁(yè)面了,主要是顯示樣本中較為直觀的變化,比如突變、缺失、RNA表達(dá)、磷酸化變化等等。

  1. 用TANRIC來(lái)探索癌癥中l(wèi)ncRNA功能

更多閱讀:http://www./thread-999-1-2.html

  1. TCGA2BED-可以從TCGA數(shù)據(jù)庫(kù)提取數(shù)據(jù)成bed格式

官網(wǎng):http://bioinformatics./main/TANRIC:Overview

更多閱讀:http://www./thread-1056-1-1.html

  1. TCGA可視化數(shù)據(jù)庫(kù)GEPIA

官網(wǎng):http://gepia./index.html

這個(gè)數(shù)據(jù)庫(kù)可以分析有什么功能呢?

a. 給一個(gè)基因,告訴你在所有腫瘤組織里面的表達(dá)情況,同時(shí)還展示其在癌和癌旁的表達(dá)

b. 給一個(gè)基因,自動(dòng)做生存分析

c. 給一個(gè)基因,告訴你他的共表達(dá)基因,或者叫表達(dá)模式相似的基因

d. 給兩個(gè)基因,告訴你他在特定組織的相關(guān)性

e. 可以做編碼基因,也可以做非編碼基因

  1. TCGA生存分析oncolnc

官網(wǎng):http://www./

這是一個(gè)整合了TCGA的各種RNA數(shù)據(jù)和患者臨床數(shù)據(jù),提供生存分析的網(wǎng)站,灰常簡(jiǎn)單好用。

  1. 基于TCGA的蛋白芯片分析神器TCPA

官網(wǎng):http://www./tcpa/

更多閱讀:http://www./thread-1293-1-1.html

  1. UCSC的cancer genome browser探索TCGA的level3數(shù)據(jù)

可以對(duì)任何癌種,根據(jù)任何臨床指標(biāo)進(jìn)行分sub-group之后進(jìn)行任何形式的生存分析,比較分析,還有相關(guān)分析。

更多閱讀: http://www./thread-1086-1-1.html

  1. Immunophenogram

網(wǎng)站是:https:///home

TCGA的數(shù)據(jù)挖掘大文章類型,從細(xì)胞群里里面區(qū)分各種免疫細(xì)胞

  1. 基于TCGA的甲基化神器mexpress

官網(wǎng):http:///

整合了TCGA中的DNA甲基化,表達(dá)量及臨床數(shù)據(jù),主要用來(lái)探索甲基化,基因表達(dá)和臨床表型之間的關(guān)聯(lián)

  1. oncomine

Oncomine是目前最大的癌癥基因芯片數(shù)據(jù)庫(kù)更多閱讀:http://www./thread-1242-1-1.html

參考資料

http://www./thread-1080-1-1.html

http://www./thread-306-1-1.html

http://www./thread-307-1-1.html

http://www./thread-827-1-1.html

http://www./thread-1290-1-1.html

http://paper.dxy.cn/article/511878

https://cancergenome./abouttcga/overview

專題學(xué)習(xí)目錄

生信菜鳥(niǎo)團(tuán)-專題學(xué)習(xí)目錄(1)

生信菜鳥(niǎo)團(tuán)-專題學(xué)習(xí)目錄(2)

還有更多文章,請(qǐng)移步公眾號(hào)閱讀

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多