#分析流程#MeDIP-seq(甲基化DNA免疫共沉淀測(cè)序)分析流程

生物_醫(yī)藥_科研 2019-04-17

展開全文

MeDIP-Seq(Methylated DNA Immunoprecipitation Sequencing) 測(cè)序是基于抗體富集原理進(jìn)行測(cè)序的全基因組甲基化檢測(cè)技術(shù)，采用甲基化DNA免疫共沉淀技術(shù)，通過5'-甲基胞嘧啶抗體特異性富集基因組上出現(xiàn)甲基化的DNA片段，通過高通量測(cè)序在全基因組水平上進(jìn)行高精度的CpG密集的高甲基化區(qū)域的研究。

利用MeDIP-Seq技術(shù)可以快速有效地尋找基因組上的甲基化區(qū)域，從而比較不同細(xì)胞、組織或疾病樣本間的DNA甲基化修飾模式的差異。

技術(shù)策略：

技術(shù)優(yōu)勢(shì)：
精確度高：基因組位點(diǎn)定位精確性可達(dá)± 50bp。
可靠性高：直接對(duì)甲基化片段進(jìn)行測(cè)序和定量，無交叉反應(yīng)和背景噪音。
檢測(cè)范圍廣：全基因組范圍內(nèi)甲基化區(qū)域研究。
高性價(jià)比：通過抗體富集高甲基化區(qū)域進(jìn)行測(cè)序，有效降低測(cè)序費(fèi)用。

技術(shù)路線：

MeDIP-seq生物信息學(xué)分析

將測(cè)序結(jié)果與參考基因組比對(duì)，比對(duì)上唯一位置的序列用于后續(xù)標(biāo)準(zhǔn)信息分析及個(gè)性化分析。信息分析流程如下：

生物信息分析流程圖，首先要對(duì)測(cè)序數(shù)據(jù)進(jìn)行去接頭去低值處理，然后進(jìn)行比對(duì)分析，采用唯一比對(duì)的reads進(jìn)行下一步分析。之后對(duì)唯一比對(duì)reads在基因組，基因元件的分布進(jìn)行分析。檢測(cè)到唯一比對(duì)的reads的富集區(qū)（Peak），并對(duì)Peak進(jìn)行分析。最后進(jìn)行差異Peak的分析。

1. 質(zhì)控
測(cè)序后的原始序列需要進(jìn)行質(zhì)控，去污染、去接頭及去除低質(zhì)量數(shù)據(jù)等過程。

數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)信息

樣品名稱	read長(zhǎng)度(bp)	reads數(shù)量	原始數(shù)據(jù)(Gb)
a	49	24,489,796	1.2
b	49	24,489,796	1.2
c	49	24,489,796	1.2

2. MeDIP-Seq序列與參考序列的比對(duì)

將MeDIP-Seq序列與參考基因組進(jìn)行比對(duì)，每條read最多容許2個(gè)堿基的錯(cuò)配，生成最終比對(duì)結(jié)果文件 *.sop。

比對(duì)信息統(tǒng)計(jì)

樣品名稱	原始reads數(shù)量	比對(duì)reads數(shù)	比對(duì)率(%)	有效鏈深度	唯一比對(duì)reads數(shù)	唯一比對(duì)率(%)
a	24,489,796	21,449,285	87.58	2.82	12,199,426	49.81
b	24,489,796	21,759,594	88.85	2.86	12,328,166	50.34
c	24,489,796	21,979,358	89.75	2.89	12,193,301	49.79

比對(duì)率=比對(duì)reads數(shù)/原始reads數(shù)量，有效鏈深度=比對(duì)bases數(shù)/基因組參考序列大小，唯一比對(duì)率=唯一比對(duì)reads數(shù)/原始reads數(shù)量

3. MeDIP-Seq數(shù)據(jù)的全基因組分布趨勢(shì)
3.1 MeDIP-seq 測(cè)序 reads 在全基因組上的覆蓋深度
計(jì)算全基因組上每一個(gè)堿基的覆蓋深度，得到不同覆蓋深度下的堿基百分比，即不同覆蓋深度下的堿基對(duì)應(yīng)基因組的覆蓋度。

覆蓋深度：特定位點(diǎn)被測(cè)序 reads 所覆蓋的次數(shù)。例如某一個(gè)位點(diǎn)上的覆蓋深度為 10X，則表明這個(gè)位點(diǎn)被測(cè)序 reads 覆蓋了 10 次。而對(duì)于特定的 DNA 區(qū)域，或者全基因組范圍，則可以計(jì)算平均覆蓋深度。

基因組覆蓋度：符合特定條件的堿基數(shù)所能覆蓋的全基因組堿基數(shù)的比例。下圖中橫軸表示測(cè)序深度，縱軸表示不低于這一特定測(cè)序深度的基因組覆蓋度。

3.2 MeDIP-seq 測(cè)序 reads 在 CpG 位點(diǎn)上的覆蓋深度
MeDIP-seq 測(cè)序reads在CpG位點(diǎn)上的覆蓋深度計(jì)算全基因組上每一個(gè)CpG（Watson鏈，Crick鏈，雙鏈）的覆蓋深度，得到不同覆蓋深度下CpG位點(diǎn)的覆蓋度，即一定覆蓋深度以上的CpG位點(diǎn)在MeDIP-seq所測(cè)得的全部CpG位點(diǎn)中所占比例。

3.3 MeDIP-Seq測(cè)序reads在不同基因功能元件上的分布
對(duì)測(cè)序reads在9種基因組功能元件上的分布進(jìn)行比較分析，有助于了解不同功能元件的甲基化修飾特征。這9種功能元件包括CpG Islands, Repetitive Elements, gene upstream2k, first exon, first intron, internal exons, internal introns, last exon , downstream2k。另外，在此基礎(chǔ)上對(duì)Repetitive Elements區(qū)域進(jìn)一步細(xì)分，統(tǒng)計(jì)reads在不同類型Repeat區(qū)域的分布情況。
橫軸表示不同基因區(qū)域，縱軸表示分布在特定基因區(qū)域的reads占可比對(duì)reads總數(shù)的比例。

reads在不同基因功能元件上的分布

reads 在重復(fù)區(qū)域的分布情況

3.4 MeDIP-seq 測(cè)序 reads 在不同 GC 含量區(qū)域中的分布
以200bp大小的窗口對(duì)基因組進(jìn)行掃描，計(jì)算MeDIP-Seq序列在不同GC含量的窗口的分布情況，可以反映出測(cè)序數(shù)據(jù)在不同GC含量區(qū)域的富集性分布特征。
下圖中橫軸代表不同GC含量區(qū)域，縱軸代表特定GC含量區(qū)域的reads總數(shù)占所有可比對(duì)reads總數(shù)的比例。

4. 統(tǒng)計(jì) MeDIP-seq 數(shù)據(jù)富集區(qū)域 ( Peak ) 的信息
對(duì) MeDIP-seq 序列進(jìn)行 Peak 掃描，并進(jìn)行相關(guān)統(tǒng)計(jì)分析。
4.1 Peak 掃描
全基因組范圍掃描尋找Peak區(qū)域，得到Peak在基因組上的位置信息。

Peak信息統(tǒng)計(jì)

樣品名稱	Peak 數(shù)量	Peak平均長(zhǎng)度	Peak長(zhǎng)度中位數(shù)	Peak總長(zhǎng)度	Peak覆蓋度
a	41,554	1,237.80	1,108	51,435,436	13.81%
b	43,020	1,200.41	1,065	51,641,544	13.87%
c	43,358	1,251.26	1,109	54,252,026	14.57%

4.2 尋找 Peak 相關(guān)基因
根據(jù)Peak掃描的結(jié)果，尋找Peak相關(guān)基因。
4.3 統(tǒng)計(jì)Peak在不同基因功能元件上的分布
分別統(tǒng)計(jì)Peak在upstream2k，first exon，first intron，internal exons，internal introns，last exon，downstream2k等7個(gè)基因功能元件上的個(gè)數(shù)分布和覆蓋度分布。
下圖中橫軸表示各個(gè)功能元件區(qū)域，縱軸表示特定功能元件所包含的peak個(gè)數(shù)。

下圖中橫軸表示各個(gè)功能元件區(qū)域，縱軸表示特定功能元件區(qū)域所包含的peak在該區(qū)域的覆蓋度（即覆蓋堿基數(shù)與該區(qū)域堿基總數(shù)的比值）。

將每個(gè)基因元件按長(zhǎng)度平均分成10份，以曲線圖的形式反映每一個(gè)功能元件區(qū)域的 peak覆蓋度變化趨勢(shì)。

5. 基于 Peak 的多樣品間差異性分析
5.1分析兩個(gè)樣品間的 peak 相關(guān)差異基因
基于兩個(gè)樣本的MeDIP測(cè)序數(shù)據(jù)，針對(duì)各基因功能元件區(qū)域的Peak覆蓋度做差異分析，找到具有差異的基因。
篩選條件為：p值≤0.05，兩個(gè)樣本在相同基因元件內(nèi)都有覆蓋，且覆蓋度的差異在 4 倍以上。下述表格中的數(shù)值表示差異基因個(gè)數(shù)。

# of genes	A vs B
upstream2k	833
first exon	65
First intron	559
Internal exons	517
Internal introns	78
Last exon	220
downstream2k	731

5.2 對(duì)兩個(gè)樣品間的差異基因進(jìn)行GO功能富集分析及pathway功能分析
Peak相關(guān)差異基因所具有的功能聚類，代表兩個(gè)樣品在特定生物學(xué)功能上具有與DNA 甲基化修飾相關(guān)的差異性。下圖為差異基因的GO功能分析結(jié)果。橫軸代表GO功能分類項(xiàng)，左縱軸代表與GO相關(guān)的基因的比例，右縱軸代表與GO相關(guān)基因的數(shù) 量，每一個(gè)特定功能分類項(xiàng)中均列出兩個(gè)樣品在此功能分類下的分布情況。
圖中所標(biāo)down與up，是將sample1與sample2進(jìn)行比較后所得到的內(nèi)容，sample2覆蓋度高于sample1的基因即為up-methylated，反之則為down-methylated。

6. 個(gè)性化信息分析
案例分析：
MeDIP-Seq發(fā)現(xiàn)種子發(fā)育過程中重復(fù)元件廣泛的去甲基化是基因印記的基礎(chǔ)
在植物中，基因印記現(xiàn)象往往發(fā)生在胚乳中。研究人員以兩個(gè)擬南芥品種Col- gl和Ler各自的胚和胚乳為材料，利用medIP測(cè)序的手段對(duì)全基因組的甲基化譜進(jìn)行研究。發(fā)現(xiàn)伴隨著胚乳的發(fā)育以及胚乳特異的一些基因的表達(dá)發(fā)生了大規(guī)模甲基化的變化。胚乳中重復(fù)元件發(fā)生了廣泛的去甲基化。并且，通過將胚乳中甲基化程度降低的區(qū)域與胚乳表達(dá)偏好性(preferential expression in endosperm)關(guān)聯(lián)起來作為候選印記基因的方式，尋找到了新的印記基因。所有的結(jié)果說明植物中印記的發(fā)生來源于在基因調(diào)控元件附近插入重復(fù)元件的甲基化以及之后的正向選擇的原因。

胚與胚乳中甲基化狀況
原文：Extensive Demethylation of Repetitive Elements During Seed Development Underlies Gene Imprinting, Science, 200

賓利哥哥歡迎大家轉(zhuǎn)發(fā)哦！~~~

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：生物_醫(yī)藥_科研 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)