日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Chip

 world663 2018-01-08


一、摘要

實驗旨在了解Chip-seq的基本原理。通過模仿文獻(xiàn)《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,學(xué)會利用NCBI和EBI數(shù)據(jù)庫下載數(shù)據(jù),熟悉Linux下的基本操作,并使用R語言畫圖,用Python或者shell寫腳本進(jìn)行基本的數(shù)據(jù)處理,通過FastQC、Bowtie、Macs、samtools、ROSE等軟件進(jìn)行數(shù)據(jù)處理,并對預(yù)測結(jié)果進(jìn)行分析討論。

二、材料

1、硬件平臺

處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz

安裝內(nèi)存(RAM):16.0GB

2、系統(tǒng)平臺

Windows 8.1,Ubuntu

3、軟件平臺

① Aspera connect ② FastQC ③ Bowtie

④ Macs 1.4.2 ⑤ IGV ⑥ ROSE

4、數(shù)據(jù)庫資源

NCBI數(shù)據(jù)庫:https://www.ncbi.nlm./;

EBI數(shù)據(jù)庫:http://www./;

5、研究對象

加入H3K27Ac 抗體處理過的TE7細(xì)胞系測序數(shù)據(jù)和其空白對照組

加入H3K27Ac 抗體處理過KYSE510細(xì)胞系和其空白對照組

背景簡介:食管鱗狀細(xì)胞癌(OSCC)是一種侵襲性的惡性腫瘤,本文章通過高通量小分子抑制劑進(jìn)行篩選,發(fā)現(xiàn)了一個高度有效的抗癌物,特異性的CDK7抑制劑THZ1。RNA-Seq顯示,低劑量THZ1會對一些致癌基因的產(chǎn)生選擇性抑制作用,而且,對這些THZ1敏感的基因組功能的進(jìn)一步表征表明他們經(jīng)常與超級增強(qiáng)子結(jié)合(SE)。ChIP-seq解讀在OSCC細(xì)胞中,CDK7的抑制作用的機(jī)制。

本文亮點:確定了在OSCC細(xì)胞中SE的位置,以及識別出許多SE有關(guān)的調(diào)節(jié)元件;并且發(fā)現(xiàn)小分子THZ1特異性抑制SE有關(guān)的轉(zhuǎn)錄,顯示強(qiáng)大的抗癌性。

文章PMID: 27196599

三、方法

1、Aspera軟件下載及安裝

進(jìn)入Aspera官網(wǎng)的Downloads界面,選中aspera connect server,點擊Wwindows圖標(biāo),選擇v3.6.2版本,點擊Download進(jìn)行下載。

 

圖表 1 aspera的下載

Linux下的安裝配置參考博文:

http://blog.csdn.net/likelet/article/details/8226368

2Chip-Seq數(shù)據(jù)下載

1)選擇NCBIGEO DataSets數(shù)據(jù)庫,輸入GSE76861,打開GSM2039110、GSM2039111、2039112、GSM2039113獲取它們對應(yīng)的SRX序列號。

 

圖表 2 Chip-seq數(shù)據(jù)

 

圖表獲取SRA編號

2)進(jìn)入EBI,獲取ascp下載地址

 

圖表 4 ascp下載地址

3)使用aspera下載并解壓

aspera下載命令及gunzip解壓命令(nohup+命令+&可以后臺運行)

 

3、FastQC質(zhì)量檢查

3.1 FastQC的安裝

Ubuntu軟件包內(nèi)自帶Fastqc

故安裝命令apt-get install fastqc

3.2 使用FastQC進(jìn)行質(zhì)量檢查

fastqc命令:

fastqc -o . -t 5 -f fastq SRR3101251.fastq &

-o . 將結(jié)果輸出到當(dāng)前目錄

-t 5 表示開5個線程運行

-f fastq SRR3101251.fastq 表示輸入的文件

(要分別對四個fastq文件執(zhí)行四次)

4、使用BowtieReads進(jìn)行Mapping

4.1 Bowtie的安裝

Ubuntu軟件包內(nèi)自帶bowtie

故安裝命令apt-get install bowtie

4.2 下載人類參考基因組

文獻(xiàn)說序列比對到了人類參考基因組GRCh37/hg19

bowtie官網(wǎng)上面有人類參考基因組hg19已經(jīng)建好索引的文件

 

圖表 5 bowtie hg19建好的索引

再執(zhí)行解壓縮命令:unzip hg19.ebwt.zip

4.3 使用bowtie進(jìn)行比對

bowtie命令:

5、MACS尋找Peak富集區(qū)

5.1 Macs14的安裝

至劉小樂實驗室網(wǎng)站下載http://liulab.dfci./MACS/Download.html

 

解壓后,切換到文件夾目錄,執(zhí)行

python setup.py install

5.2 使用Macs建模,尋找Peaks富集區(qū)

MACS命令:

 

6、IGV可視化

6.1數(shù)據(jù)正規(guī)化normalised

編寫python程序?qū)?/span>wig文件進(jìn)行normalised

 

TE7_H3K27AcKYSE510_H3K27Acwig文件(MACS后生成的treat文件夾里的wig文件)計算RPM

RPM公式:(某位置的reads數(shù)目÷所有染色體上總reads數(shù)目)×1000000

6.2 使用wigToBigWig轉(zhuǎn)化格式

 

6.3安裝IGV(Integrative Genomics Viewer)對結(jié)果可視化

IGV官網(wǎng)下載windows版本http://software./software/igv/download根據(jù)提示安裝

直接點擊打開igv.jar或者對bat文件以管理員身份運行

首先,載入hg19基因組;接著載入兩個normalised后的bw文件即可

7、ROSE鑒定Enhancer

7.1 ROSE程序安裝

ROSE程序可以到http://younglab.wi./super_enhancer_code.html下載,并且有2.7G的示例數(shù)據(jù)

7.2 數(shù)據(jù)預(yù)處理

 

7.3運行ROSE程序

 

7.4 進(jìn)行基因注釋

 

7.5 編寫R程序,繪制Enhancer及鄰近基因

 

圖表 6 TE7.r程序

 

圖表 7 KYSE510.r程序

 

四、結(jié)果

1、Chip-Seq數(shù)據(jù)下載

Chip-Seq數(shù)據(jù)下載并解壓結(jié)果

 

圖表 8 Chip-Seq數(shù)據(jù)

 

2、FastQC質(zhì)量檢查

數(shù)據(jù)質(zhì)量檢查

 

圖表質(zhì)量檢查文件

 

 

圖表 10 質(zhì)量檢查結(jié)果

 

3、使用Bowtie對Reads進(jìn)行Mapping

3.1基因組文件

 

圖表 11人類參考基因組HG19索引

3.2 Mapping結(jié)果

 

圖表 12 Mapping整體結(jié)果

 

圖表 13 生成的sam文件

 

4MACS尋找Peak富集區(qū)

4.1MACS結(jié)果文件

 

圖表 14 TE7實驗對照組結(jié)果

 

圖表 15 KYSE510實驗對照組結(jié)果

4.2 MACS結(jié)果解讀

Peaks.xls從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結(jié)束為止,峰的長度,峰的高度,貼上的reads標(biāo)簽個數(shù),pvalue(表示置信度),峰的富集程度,FDR假陽性率(越小則峰越好)

 

圖表 16 Peaks.xls文件

negative_peaks.xls當(dāng)有對照組實驗存在時,MACS會進(jìn)行兩次peak calling。第一次以實驗組(Treatment)為實驗組,對照組為對照組,第二次顛倒,以實驗組為對照組,對照組為實驗組。這個相當(dāng)于顛倒過后計算出來的文件

 

圖表 17 negative_peaks.xls

Peaks.bed文件相當(dāng)于Peaks.xls的簡化版,從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結(jié)束為止,峰的MACS名稱,pvalue(表示置信度)

 

圖表 18  Peaks.bed文件

summits.bed是峰頂文件,從左至右依次是:峰所在的染色體名稱,峰頂?shù)奈恢?,峰?/span>MACS名稱,峰的高度

 

 

圖表 19 summits.bed文件

MACS_wiggle文件夾下面分為control文件夾和treat文件夾,里面分別存了control組和treat組每隔50bp,貼上的reads數(shù)目。第一列為染色體上的位置;第二列為從第一列對應(yīng)的位置開始,延伸50bp,總共貼上的標(biāo)簽(reads)個數(shù)。

 

圖表 20 wiggle文件夾下afterfiting_all.wig文件

model.r文件可以使用R運行,繪制雙峰模型的圖片PDF

 

圖表 21 model.r文件

 

圖表 22 TE7雙峰模型   圖表 23 KYSE510雙峰模型

 

5、IGVpeaks可視化

5.1Normalised后,wig文件與文獻(xiàn)數(shù)據(jù)比較

 

圖表 24 peaks整體統(tǒng)計比較

5.2 IGV peaks整體可視化

 

圖表 25 IGV可視化

6、ROSE分析結(jié)果

6.1 數(shù)據(jù)預(yù)處理結(jié)果

Samtoolssam文件轉(zhuǎn)化為bam文件,并且排序,再建立索引

 

圖表 26 bam文件和bai索引

6.2 ROSE程序Enhancer分類結(jié)果

 

圖表 27 TE7 Enhancer分類結(jié)果

 

圖表 28 KYSE510 Enhancer分類結(jié)果

 

peaks_AllEnhancers.table.txt文件從左到右分別是,Enhancer區(qū)域名稱ID,染色體位置,Enhancer起始位置結(jié)束位置,由多少個Enhancer縫合連接而成,Enhancer大小,Treat組峰高度,Control組峰高度,Enhancer大小排名,是否為Super Enhancer

 

圖表 29 peaks_AllEnhancers.table.txt文件

peaks_Plot_points.png圖片,縱坐標(biāo)為peaks_AllEnhancers.table.txtG,H列相減結(jié)果,及減掉對照組峰后的高度,橫坐標(biāo)為全部Enhancer的排名,越可能是SuperEnhancer則越靠圖的右邊。

 

圖表 30 TE7_peaks_Plot_points.png圖表 31 KYSE510_peaks_Plot_points.png 

6.3 基因注釋結(jié)果

AllEnhancers_ENHANCER_TO_GENE.txtJ列開始為離Enhancer最近的基因名稱

AllEnhancers_GENE_TO_ENHANCER.txt1列為基因名,后面為鄰近峰的名稱

 

圖表 32 AllEnhancers_ENHANCER_TO_GENE.txt文件

 

圖表 33 AllEnhancers_GENE_TO_ENHANCER.txt

五、討論和結(jié)論

1、結(jié)論

1.1 FastQC質(zhì)量檢查

FastQC 版本和機(jī)房小型機(jī)不同,v0.10.1,因此檢測結(jié)果略有區(qū)別。圖表質(zhì)量檢查結(jié)果顯示,測序質(zhì)量挺好,Per base sequence content、Per sequence GC content、Kmer Content出現(xiàn)警告更可能是由于測序方法本身存在的固有誤差。

1.2 bowtie整體覆蓋度

圖表 10 Mapping整體結(jié)果可以看出,四個fastq文件Mapping整體覆蓋率都在90%以上,從另一方面說明數(shù)據(jù)質(zhì)量很好

 

1.3 ROSE辨別出的Super Enhancer

圖表 29 TE7_peaks_Plot_points.png圖表 28 KYSE510_peaks_Plot_points.png可以看出,TE7細(xì)胞系中,找出了439Super Enhancer,在KYSE510細(xì)胞系中,找出了823Super Enhancer。 

 

2、討論

IGV可視化圖可以看出,峰的高度和位置基本和文獻(xiàn)相同。

 

圖表 34 IGV可視化圖

再用R程序根據(jù)ROSE程序結(jié)果,繪制和文獻(xiàn)相同的圖片,與文獻(xiàn)的圖片進(jìn)行比較,可以看出來,基因的分布是相似的,就是具體位置和文獻(xiàn)不是很一樣。

 

圖表 35 本流程結(jié)果

 

 

圖表 36 文獻(xiàn)結(jié)果

MACS結(jié)果中,有些很窄的峰高度明顯比文獻(xiàn)要低,這可能是因為bowtie時候,設(shè)置的參數(shù)使得多條reads比對上僅輸出一次,使得峰高度減小。

ROSE結(jié)果中,MIR205HG沒有標(biāo)注出來,而文獻(xiàn)中有此基因,經(jīng)過檢查,在相似位置ROSE程序有找到MIR205基因,這可能是基因注釋文件和文獻(xiàn)不同導(dǎo)致的。

 

參考文獻(xiàn)

[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多