日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

淺談Deeptools—生信之深海利器

 生物_醫(yī)藥_科研 2019-08-11

淺談Deeptools—生信之深海利器

做生信分析的,哪一個方向不得有一兩個可依賴的軟件,而近來我被Google團隊開發(fā)的Deeptools的美貌與才華深深吸引 ,它能夠有效的分析對deep-sequencing數(shù)據(jù)進行分析與可視化,是ChIP-seq,ATAC-seq 等分析的利器。
或許大家會有疑問 Deeptools=“美貌”+“才華”?楊瀾曾說:“人們沒有義務從你邋遢的外表來了解你的內在美”,那么我們先來瞅瞅Deeptools的外在美,二話不說,果斷上圖.
1. 軟件說明文檔中的美圖: 

https://www./figure/Examples-of-images-created-with-deepTools-A-Overview-of-the-deepTools-workflow-that_fig2_262076117

2. 歷年高分文章中的Deeptools美圖:

Embryonic transcription is controlled by maternally defined chromatin state 

Two independent modes of chromatin organization revealed by cohesin removal

The pioneer factor OCT4 requires the chromatin remodeller BRG1 to support gene regulatory element function in mouse embryonic stem cells

如此美貌,是否讓你心動?
既然心動,就讓我們繼續(xù)看看它的才華,也就是說它能干什么?
首先Deeptools 能夠處理BAM 和bigWig 文件,而它其中有以下這些模塊,讓我來簡述一下這些模塊的基本功能~~
multiBamSummary
針對bam文件,用來計算兩個或者多個bam文件在特定基因區(qū)域的覆蓋的reads數(shù)
multiBigwigSummary
針對BigWig文件,可計算多個bigWig文件特定基因區(qū)域的信號值
correctGCBias
主要針對GC偏好性對數(shù)據(jù)進行矯正。
bamCoverage
這塊的主要功能呢,簡單來說就是吃進去的是bam文件,流出來的是bigWig或者bedGraph,以劃bin的形式計算每個bin的reads 覆蓋度,用于IGV或則UCSC的基因區(qū)域展示,如下圖所示:

bamCompare
bamCoverage 功能相似,只是bamCompare是基于兩個bam文件的比較
bigwigCompare
bigwigCompare也是針對于兩個bigwig文件,將基因組以劃bin的形式,計算這兩個bigwig文件在每個bin覆蓋深度的比值
computeMatrix
此模塊主要為后期的數(shù)據(jù)可視化模塊plotHeatmap and plotProfiles.服務,針對bigWig文件,它用來計算對基因區(qū)域以及上下游劃bin,計算每個bin內ChIP的信號強度
 
其次Deeptools可以對數(shù)據(jù)進行質控
plotCorrelation
主要是針對multiBamSummary 產(chǎn)生的矩陣,利用pearson 或者spearman 計算樣本間的相關性

computeGCBias

Benjamini’s 的方法計算GC-bias 并進行可視化展示,如下圖所示:

DeepTools的模塊的功能的簡述,只能算是拋磚引玉,若是你已經(jīng)被DeepTools的才華所吸引,那么一定要看Deeptools的官方文檔,詳細鏈接如下:http://deeptools./en/latest/index.html

知道了DeepTools的滿腹才華,如何才能發(fā)揮DeepTools的作用呢?在此,小編想要細致的介紹兩個模塊的使用,以來給大家舉個栗子

· Correlation between BAM files 計算bam文件相關性)

· multiBamSummary

· 原理:

· 將基因組劃bin,通過bam文件計算每個bin reads的覆蓋度(Coverage)

· 用法:

· multiBamSummary  bins  --bamfiles  H3K9me3.sort.bam H3k27me3.sort.bam  H3K4me3.sort.bam H3K4me1.sort.bam  input.sort.bam --minMappingQuality  30  --region 1 --labels  H3K9me3 H3k27me3 H3K4me3 H3K4me1 input  -out readCounts.npz  --outRawCounts  readCounts.tab

· 參數(shù)講解:

· bins 代表按照bin 劃分基因組,默認10k為一個窗口

· --bamfiles 一系列已經(jīng)sort過的bam文件

· --minMappingQuality 比對質量閾值

· --region 基因組的區(qū)域默認none 可以寫成 1,chr1,chr1:456700:891000的形式

· --labels 標簽

· -out 輸出bin的readscount 矩陣,(npz 為numpy 存儲的文件)

· --outRawCounts 同上,為tab分割的文本文件

· plotCorrelation

· 原理:

· 針對multiBamSummary 產(chǎn)生的矩陣,利用pearson 或者spearman 計算樣本間的相關性

· 用法:

· plotCorrelation  -in  readCounts.npz –corMethod  spearman --skipZeros  --plotTitle  'Spearman Correlation of Read Counts' --whatToPlot  heatmap  --colorMap  PuRd –plotNumbers  -o  heatmap_SpearmanCorr_readCounts.png  --outFileCorMatrix  SpearmanCorr_readCounts.tab

· 參數(shù)講解:

· -in 輸入 ,文件為 multiBamSummary 產(chǎn)生的矩陣

· --corMethod 相關性分析的方法:pearson 或者spearman

· --colorMap 選取色系

· -o 圖像輸出路徑:

· 結果展示

此圖非常直觀的展示了各個組蛋白之間的相關性

· 計算TSS 區(qū)域內的富集程度

·  computeMatrix

· 對基因區(qū)域以及上下游劃bin,計算每個bin內Chip的信號強度

· 用法:

· computeMatrix   scale-regions -S  G_K4me3_1.bw    G_K27ac_1.bw  G_K4ME1_1.bw  G_K27me3   D_K4me3_1.bw    D_K27ac_1.bw  D_K4ME1_1.bw  D_K27me3  -R  up.Gene.bed   down.Gene.bed –beforeRegionStartLength  5000  --regionBodyLength  5000 –afterRegionStartLength  5000 --skipZeros  -o matrix.mat.gz

· 參數(shù)講解:

· -S score file bigwig文件

· -R 參考基因組 bed文件,如果有多個bed的文件 以空格分開

· --beforeRegionStartLength 基因上游長度

· --regionBodyLength 基因body

· --afterRegionStartLength 基因下游長度

· plotHeatmap

· 基因的ChIP的信號強度按照基因上下游所有bin的信號強度的均值進行排序并通過熱圖進行展示

· 用法:

·  plotHeatmap -m matrix.mat.gz  -out compare_heatmap.png

· 參數(shù)講解:

· -m computeMatrix 步驟所產(chǎn)生的矩陣

· -o 輸出文件

· 結果展示:

轉錄因子的DNA結合強度信號強度從高到低排列,同時畫出其他調控因子或組蛋白修飾結合信號。有助于我們從全基因組角度,了解轉錄因子或組蛋白修飾之間的關系

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多