實驗旨在了解Chip-seq的基本原理。通過模仿文獻(xiàn)《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,學(xué)會利用NCBI和EBI數(shù)據(jù)庫下載數(shù)據(jù),熟悉Linux下的基本操作,并使用R語言畫圖,用Python或者shell寫腳本進(jìn)行基本的數(shù)據(jù)處理,通過FastQC、Bowtie、Macs、samtools、ROSE等軟件進(jìn)行數(shù)據(jù)處理,并對預(yù)測結(jié)果進(jìn)行分析討論。 1、硬件平臺處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz 安裝內(nèi)存(RAM):16.0GB 2、系統(tǒng)平臺Windows 8.1,Ubuntu 3、軟件平臺① Aspera connect ② FastQC ③ Bowtie ④ Macs 1.4.2 ⑤ IGV ⑥ ROSE 4、數(shù)據(jù)庫資源NCBI數(shù)據(jù)庫:https://www.ncbi.nlm./; EBI數(shù)據(jù)庫:http://www./; 5、研究對象加入H3K27Ac 抗體處理過的TE7細(xì)胞系測序數(shù)據(jù)和其空白對照組 加入H3K27Ac 抗體處理過的KYSE510細(xì)胞系和其空白對照組 背景簡介:食管鱗狀細(xì)胞癌(OSCC)是一種侵襲性的惡性腫瘤,本文章通過高通量小分子抑制劑進(jìn)行篩選,發(fā)現(xiàn)了一個高度有效的抗癌物,特異性的CDK7抑制劑THZ1。RNA-Seq顯示,低劑量THZ1會對一些致癌基因的產(chǎn)生選擇性抑制作用,而且,對這些THZ1敏感的基因組功能的進(jìn)一步表征表明他們經(jīng)常與超級增強(qiáng)子結(jié)合(SE)。ChIP-seq解讀在OSCC細(xì)胞中,CDK7的抑制作用的機(jī)制。 本文亮點:確定了在OSCC細(xì)胞中SE的位置,以及識別出許多SE有關(guān)的調(diào)節(jié)元件;并且發(fā)現(xiàn)小分子THZ1特異性抑制SE有關(guān)的轉(zhuǎn)錄,顯示強(qiáng)大的抗癌性。 文章PMID: 27196599 1、Aspera軟件下載及安裝進(jìn)入Aspera官網(wǎng)的Downloads界面,選中aspera connect server,點擊Wwindows圖標(biāo),選擇v3.6.2版本,點擊Download進(jìn)行下載。 圖表 1 aspera的下載 Linux下的安裝配置參考博文: http://blog.csdn.net/likelet/article/details/8226368 2、Chip-Seq數(shù)據(jù)下載1)選擇NCBI的GEO DataSets數(shù)據(jù)庫,輸入GSE76861,打開GSM2039110、GSM2039111、2039112、GSM2039113獲取它們對應(yīng)的SRX序列號。 圖表 2 Chip-seq數(shù)據(jù) 圖表 3 獲取SRA編號 2)進(jìn)入EBI,獲取ascp下載地址 圖表 4 ascp下載地址 3)使用aspera下載并解壓 aspera下載命令及gunzip解壓命令(nohup+命令+&可以后臺運行) 3、FastQC質(zhì)量檢查3.1 FastQC的安裝Ubuntu軟件包內(nèi)自帶Fastqc 故安裝命令apt-get install fastqc 3.2 使用FastQC進(jìn)行質(zhì)量檢查fastqc命令: fastqc -o . -t 5 -f fastq SRR3101251.fastq & -o . 將結(jié)果輸出到當(dāng)前目錄 -t 5 表示開5個線程運行 -f fastq SRR3101251.fastq 表示輸入的文件 (要分別對四個fastq文件執(zhí)行四次) 4、使用Bowtie對Reads進(jìn)行Mapping4.1 Bowtie的安裝Ubuntu軟件包內(nèi)自帶bowtie 故安裝命令apt-get install bowtie 4.2 下載人類參考基因組文獻(xiàn)說序列比對到了人類參考基因組GRCh37/hg19上 bowtie官網(wǎng)上面有人類參考基因組hg19已經(jīng)建好索引的文件 圖表 5 bowtie hg19建好的索引 再執(zhí)行解壓縮命令:unzip hg19.ebwt.zip 4.3 使用bowtie進(jìn)行比對bowtie命令: 5、MACS尋找Peak富集區(qū)5.1 Macs14的安裝至劉小樂實驗室網(wǎng)站下載http://liulab.dfci./MACS/Download.html 解壓后,切換到文件夾目錄,執(zhí)行 python setup.py install 5.2 使用Macs建模,尋找Peaks富集區(qū)MACS命令: 6、IGV可視化6.1數(shù)據(jù)正規(guī)化normalised編寫python程序?qū)?/span>wig文件進(jìn)行normalised 對TE7_H3K27Ac和KYSE510_H3K27Ac的wig文件(即MACS后生成的treat文件夾里的wig文件)計算RPM RPM公式:(某位置的reads數(shù)目÷所有染色體上總reads數(shù)目)×1000000 6.2 使用wigToBigWig轉(zhuǎn)化格式 6.3安裝IGV(Integrative Genomics Viewer)對結(jié)果可視化從IGV官網(wǎng)下載windows版本http://software./software/igv/download根據(jù)提示安裝 直接點擊打開igv.jar或者對bat文件以管理員身份運行 首先,載入hg19基因組;接著載入兩個normalised后的bw文件即可 7、ROSE鑒定Enhancer7.1 ROSE程序安裝ROSE程序可以到http://younglab.wi./super_enhancer_code.html下載,并且有2.7G的示例數(shù)據(jù) 7.2 數(shù)據(jù)預(yù)處理 7.3運行ROSE程序 7.4 進(jìn)行基因注釋 7.5 編寫R程序,繪制Enhancer及鄰近基因 圖表 6 TE7.r程序 圖表 7 KYSE510.r程序
1、Chip-Seq數(shù)據(jù)下載Chip-Seq數(shù)據(jù)下載并解壓結(jié)果 圖表 8 Chip-Seq數(shù)據(jù)
2、FastQC質(zhì)量檢查數(shù)據(jù)質(zhì)量檢查
圖表 9 質(zhì)量檢查文件
3、使用Bowtie對Reads進(jìn)行Mapping3.1基因組文件 圖表 11人類參考基因組HG19索引 3.2 Mapping結(jié)果
圖表 13 生成的sam文件
4、MACS尋找Peak富集區(qū)4.1MACS結(jié)果文件 圖表 14 TE7實驗對照組結(jié)果
圖表 15 KYSE510實驗對照組結(jié)果 4.2 MACS結(jié)果解讀Peaks.xls從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結(jié)束為止,峰的長度,峰的高度,貼上的reads標(biāo)簽個數(shù),pvalue(表示置信度),峰的富集程度,FDR假陽性率(越小則峰越好) 圖表 16 Peaks.xls文件 negative_peaks.xls當(dāng)有對照組實驗存在時,MACS會進(jìn)行兩次peak calling。第一次以實驗組(Treatment)為實驗組,對照組為對照組,第二次顛倒,以實驗組為對照組,對照組為實驗組。這個相當(dāng)于顛倒過后計算出來的文件 圖表 17 negative_peaks.xls Peaks.bed文件相當(dāng)于Peaks.xls的簡化版,從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結(jié)束為止,峰的MACS名稱,pvalue(表示置信度)
圖表 18 Peaks.bed文件 summits.bed是峰頂文件,從左至右依次是:峰所在的染色體名稱,峰頂?shù)奈恢?,峰?/span>MACS名稱,峰的高度
圖表 19 summits.bed文件 MACS_wiggle文件夾下面分為control文件夾和treat文件夾,里面分別存了control組和treat組每隔50bp,貼上的reads數(shù)目。第一列為染色體上的位置;第二列為從第一列對應(yīng)的位置開始,延伸50bp,總共貼上的標(biāo)簽(reads)個數(shù)。 圖表 20 wiggle文件夾下afterfiting_all.wig文件 model.r文件可以使用R運行,繪制雙峰模型的圖片PDF 圖表 21 model.r文件 圖表 22 TE7雙峰模型 圖表 23 KYSE510雙峰模型
5、IGV對peaks可視化5.1Normalised后,wig文件與文獻(xiàn)數(shù)據(jù)比較 圖表 24 peaks整體統(tǒng)計比較 5.2 IGV peaks整體可視化 圖表 25 IGV可視化 6、ROSE分析結(jié)果6.1 數(shù)據(jù)預(yù)處理結(jié)果Samtools將sam文件轉(zhuǎn)化為bam文件,并且排序,再建立索引 圖表 26 bam文件和bai索引 6.2 ROSE程序Enhancer分類結(jié)果 圖表 27 TE7 Enhancer分類結(jié)果 圖表 28 KYSE510 Enhancer分類結(jié)果
peaks_AllEnhancers.table.txt文件從左到右分別是,Enhancer區(qū)域名稱ID,染色體位置,Enhancer起始位置,結(jié)束位置,由多少個Enhancer縫合連接而成,Enhancer大小,Treat組峰高度,Control組峰高度,Enhancer大小排名,是否為Super Enhancer 圖表 29 peaks_AllEnhancers.table.txt文件 peaks_Plot_points.png圖片,縱坐標(biāo)為peaks_AllEnhancers.table.txt中G,H列相減結(jié)果,及減掉對照組峰后的高度,橫坐標(biāo)為全部Enhancer的排名,越可能是SuperEnhancer則越靠圖的右邊。 圖表 30 TE7_peaks_Plot_points.png圖表 31 KYSE510_peaks_Plot_points.png 6.3 基因注釋結(jié)果AllEnhancers_ENHANCER_TO_GENE.txt第J列開始為離Enhancer最近的基因名稱 AllEnhancers_GENE_TO_ENHANCER.txt第1列為基因名,后面為鄰近峰的名稱 圖表 32 AllEnhancers_ENHANCER_TO_GENE.txt文件 圖表 33 AllEnhancers_GENE_TO_ENHANCER.txt 1、結(jié)論1.1 FastQC質(zhì)量檢查FastQC 版本和機(jī)房小型機(jī)不同,為v0.10.1,因此檢測結(jié)果略有區(qū)別。圖表 8 質(zhì)量檢查結(jié)果顯示,測序質(zhì)量挺好,Per base sequence content、Per sequence GC content、Kmer Content出現(xiàn)警告更可能是由于測序方法本身存在的固有誤差。 1.2 bowtie整體覆蓋度由圖表 10 Mapping整體結(jié)果可以看出,四個fastq文件Mapping整體覆蓋率都在90%以上,從另一方面說明數(shù)據(jù)質(zhì)量很好
1.3 ROSE辨別出的Super Enhancer由圖表 29 TE7_peaks_Plot_points.png圖表 28 KYSE510_peaks_Plot_points.png可以看出,在TE7細(xì)胞系中,找出了439個Super Enhancer,在KYSE510細(xì)胞系中,找出了823個Super Enhancer。
2、討論由IGV可視化圖可以看出,峰的高度和位置基本和文獻(xiàn)相同。 圖表 34 IGV可視化圖 再用R程序根據(jù)ROSE程序結(jié)果,繪制和文獻(xiàn)相同的圖片,與文獻(xiàn)的圖片進(jìn)行比較,可以看出來,基因的分布是相似的,就是具體位置和文獻(xiàn)不是很一樣。 圖表 35 本流程結(jié)果
圖表 36 文獻(xiàn)結(jié)果 在MACS結(jié)果中,有些很窄的峰高度明顯比文獻(xiàn)要低,這可能是因為bowtie時候,設(shè)置的參數(shù)使得多條reads比對上僅輸出一次,使得峰高度減小。 在ROSE結(jié)果中,MIR205HG沒有標(biāo)注出來,而文獻(xiàn)中有此基因,經(jīng)過檢查,在相似位置ROSE程序有找到MIR205基因,這可能是基因注釋文件和文獻(xiàn)不同導(dǎo)致的。
參考文獻(xiàn) [1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599 |
|