MeDIP-Seq(Methylated DNA Immunoprecipitation Sequencing) 測(cè)序是基于抗體富集原理進(jìn)行測(cè)序的全基因組甲基化檢測(cè)技術(shù),采用甲基化DNA免疫共沉淀技術(shù),通過5'-甲基胞嘧啶抗體特異性富集基因組上出現(xiàn)甲基化的DNA片段,通過高通量測(cè)序在全基因組水平上進(jìn)行高精度的CpG密集的高甲基化區(qū)域的研究。 利用MeDIP-Seq技術(shù)可以快速有效地尋找基因組上的甲基化區(qū)域,從而比較不同細(xì)胞、組織或疾病樣本間的DNA甲基化修飾模式的差異。 技術(shù)策略: 
技術(shù)優(yōu)勢(shì): 精確度高:基因組位點(diǎn)定位精確性可達(dá)± 50bp。 可靠性高:直接對(duì)甲基化片段進(jìn)行測(cè)序和定量,無交叉反應(yīng)和背景噪音。 檢測(cè)范圍廣:全基因組范圍內(nèi)甲基化區(qū)域研究。 高性價(jià)比:通過抗體富集高甲基化區(qū)域進(jìn)行測(cè)序,有效降低測(cè)序費(fèi)用。
技術(shù)路線: 
MeDIP-seq生物信息學(xué)分析 將測(cè)序結(jié)果與參考基因組比對(duì),比對(duì)上唯一位置的序列用于后續(xù)標(biāo)準(zhǔn)信息分析及個(gè)性化分析。信息分析流程如下: 
生物信息分析流程圖,首先要對(duì)測(cè)序數(shù)據(jù)進(jìn)行去接頭去低值處理,然后進(jìn)行比對(duì)分析,采用唯一比對(duì)的reads進(jìn)行下一步分析。之后對(duì)唯一比對(duì)reads在基因組,基因元件的分布進(jìn)行分析。檢測(cè)到唯一比對(duì)的reads的富集區(qū)(Peak),并對(duì)Peak進(jìn)行分析。最后進(jìn)行差異Peak的分析。 1. 質(zhì)控 測(cè)序后的原始序列需要進(jìn)行質(zhì)控,去污染、去接頭及去除低質(zhì)量數(shù)據(jù)等過程。
數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)信息 樣品名稱 | read長(zhǎng)度(bp) | reads數(shù)量 | 原始數(shù)據(jù)(Gb) | a | 49 | 24,489,796 | 1.2 | b | 49 | 24,489,796 | 1.2 | c | 49 | 24,489,796 | 1.2 |
2. MeDIP-Seq序列與參考序列的比對(duì) 將MeDIP-Seq序列與參考基因組進(jìn)行比對(duì),每條read最多容許2個(gè)堿基的錯(cuò)配,生成最終比對(duì)結(jié)果文件 *.sop。 比對(duì)信息統(tǒng)計(jì) 樣品名稱 | 原始reads數(shù)量 | 比對(duì)reads數(shù) | 比對(duì)率(%) | 有效鏈深度 | 唯一比對(duì)reads數(shù) | 唯一比對(duì)率(%) | a | 24,489,796 | 21,449,285 | 87.58 | 2.82 | 12,199,426 | 49.81 | b | 24,489,796 | 21,759,594 | 88.85 | 2.86 | 12,328,166 | 50.34 | c | 24,489,796 | 21,979,358 | 89.75 | 2.89 | 12,193,301 | 49.79 |
比對(duì)率=比對(duì)reads數(shù)/原始reads數(shù)量,有效鏈深度=比對(duì)bases數(shù)/基因組參考序列大小,唯一比對(duì)率=唯一比對(duì)reads數(shù)/原始reads數(shù)量 3. MeDIP-Seq數(shù)據(jù)的全基因組分布趨勢(shì) 3.1 MeDIP-seq 測(cè)序 reads 在全基因組上的覆蓋深度 計(jì)算全基因組上每一個(gè)堿基的覆蓋深度,得到不同覆蓋深度下的堿基百分比,即不同覆蓋深度下的堿基對(duì)應(yīng)基因組的覆蓋度。 覆蓋深度:特定位點(diǎn)被測(cè)序 reads 所覆蓋的次數(shù)。例如某一個(gè)位點(diǎn)上的覆蓋深度為 10X,則表明這個(gè)位點(diǎn)被測(cè)序 reads 覆蓋了 10 次。而對(duì)于特定的 DNA 區(qū)域,或者全基因組范圍,則可以計(jì)算平均覆蓋深度。
基因組覆蓋度:符合特定條件的堿基數(shù)所能覆蓋的全基因組堿基數(shù)的比例。下圖中橫軸表示測(cè)序深度,縱軸表示不低于這一特定測(cè)序深度的基因組覆蓋度。 
3.2 MeDIP-seq 測(cè)序 reads 在 CpG 位點(diǎn)上的覆蓋深度 MeDIP-seq 測(cè)序reads在CpG位點(diǎn)上的覆蓋深度計(jì)算全基因組上每一個(gè)CpG(Watson鏈,Crick鏈,雙鏈)的覆蓋深度,得到不同覆蓋深度下CpG位點(diǎn)的 覆蓋度,即一定覆蓋深度以上的CpG位點(diǎn)在MeDIP-seq所測(cè)得的全部CpG位點(diǎn)中所占比例。 
3.3 MeDIP-Seq測(cè)序reads在不同基因功能元件上的分布 對(duì)測(cè)序reads在9種基因組功能元件上的分布進(jìn)行比較分析,有助于了解不同功能元件的甲基化修飾特征。這9種功能元件包括CpG Islands, Repetitive Elements, gene upstream2k, first exon, first intron, internal exons, internal introns, last exon , downstream2k。另外,在此基礎(chǔ)上對(duì)Repetitive Elements區(qū)域進(jìn)一步細(xì)分,統(tǒng)計(jì)reads在不同類型Repeat區(qū)域的分布情況。 橫軸表示不同基因區(qū)域,縱軸表示分布在特定基因區(qū)域的reads占可比對(duì)reads總數(shù)的比例。 
reads在不同基因功能元件上的分布 
reads 在重復(fù)區(qū)域的分布情況 3.4 MeDIP-seq 測(cè)序 reads 在不同 GC 含量區(qū)域中的分布 以200bp大小的窗口對(duì)基因組進(jìn)行掃描,計(jì)算MeDIP-Seq序列在不同GC含量的窗口的分布情況,可以反映出測(cè)序數(shù)據(jù)在不同GC含量區(qū)域的富集性分布特征。 下圖中橫軸代表不同GC含量區(qū)域,縱軸代表特定GC含量區(qū)域的reads總數(shù)占所有可比對(duì)reads總數(shù)的比例。 
4. 統(tǒng)計(jì) MeDIP-seq 數(shù)據(jù)富集區(qū)域 ( Peak ) 的信息 對(duì) MeDIP-seq 序列進(jìn)行 Peak 掃描,并進(jìn)行相關(guān)統(tǒng)計(jì)分析。 4.1 Peak 掃描 全基因組范圍掃描尋找Peak區(qū)域,得到Peak在基因組上的位置信息。
Peak信息統(tǒng)計(jì) 樣品名稱 | Peak 數(shù)量 | Peak平均長(zhǎng)度 | Peak長(zhǎng)度中位數(shù) | Peak總長(zhǎng)度 | Peak覆蓋度 | a | 41,554 | 1,237.80 | 1,108 | 51,435,436 | 13.81% | b | 43,020 | 1,200.41 | 1,065 | 51,641,544 | 13.87% | c | 43,358 | 1,251.26 | 1,109 | 54,252,026 | 14.57% |
4.2 尋找 Peak 相關(guān)基因 根據(jù)Peak掃描的結(jié)果,尋找Peak相關(guān)基因。 4.3 統(tǒng)計(jì)Peak在不同基因功能元件上的分布 分別統(tǒng)計(jì)Peak在upstream2k,first exon,first intron,internal exons,internal introns,last exon,downstream2k等7個(gè)基因功能元件上的個(gè)數(shù)分布和覆蓋度分布。 下圖中橫軸表示各個(gè)功能元件區(qū)域,縱軸表示特定功能元件所包含的peak個(gè)數(shù)。 
下圖中橫軸表示各個(gè)功能元件區(qū)域,縱軸表示特定功能元件區(qū)域所包含的peak在該區(qū)域的覆蓋度(即覆蓋堿基數(shù)與該區(qū)域堿基總數(shù)的比值)。 
將每個(gè)基因元件按長(zhǎng)度平均分成10份,以曲線圖的形式反映每一個(gè)功能元件區(qū)域的 peak覆蓋度變化趨勢(shì)。 
5. 基于 Peak 的多樣品間差異性分析 5.1分析兩個(gè)樣品間的 peak 相關(guān)差異基因 基于兩個(gè)樣本的MeDIP測(cè)序數(shù)據(jù),針對(duì)各基因功能元件區(qū)域的Peak覆蓋度做差異分析,找到具有差異的基因。 篩選條件為:p值≤0.05,兩個(gè)樣本在相同基因元件內(nèi)都有覆蓋,且覆蓋度的差異在 4 倍以上。下述表格中的數(shù)值表示差異基因個(gè)數(shù)。 # of genes | A vs B | upstream2k | 833 | first exon | 65 | First intron | 559 | Internal exons | 517 | Internal introns | 78 | Last exon | 220 | downstream2k | 731 |
5.2 對(duì)兩個(gè)樣品間的差異基因進(jìn)行GO功能富集分析及pathway功能分析 Peak相關(guān)差異基因所具有的功能聚類,代表兩個(gè)樣品在特定生物學(xué)功能上具有與DNA 甲基化修飾相關(guān)的差異性。下圖為差異基因的GO功能分析結(jié)果。橫軸代表GO功能分類項(xiàng),左縱軸代表與GO相關(guān)的基因的比例,右縱軸代表與GO相關(guān)基因的數(shù) 量,每一個(gè)特定功能分類項(xiàng)中均列出兩個(gè)樣品在此功能分類下的分布情況。 圖中所標(biāo)down與up,是將sample1與sample2進(jìn)行比較后所得到的內(nèi)容,sample2覆 蓋度高于sample1的基因即為up-methylated,反之則為down-methylated。 
6. 個(gè)性化信息分析 案例分析: MeDIP-Seq發(fā)現(xiàn)種子發(fā)育過程中重復(fù)元件廣泛的去甲基化是基因印記的基礎(chǔ) 在植物中,基因印記現(xiàn)象往往發(fā)生在胚乳中。研究人員以兩個(gè)擬南芥品種Col- gl和Ler各自的胚和胚乳為材料,利用medIP測(cè)序的手段對(duì)全基因組的甲基化譜進(jìn)行研究。發(fā)現(xiàn)伴隨著胚乳的發(fā)育以及胚乳特異的一些基因的表達(dá)發(fā)生了大 規(guī)模甲基化的變化。胚乳中重復(fù)元件發(fā)生了廣泛的去甲基化。并且,通過將胚乳中甲基化程度降低的區(qū)域與胚乳表達(dá)偏好性(preferential expression in endosperm)關(guān)聯(lián)起來作為候選印記基因的方式,尋找到了新的印記基因。所有的結(jié)果說明植物中印記的發(fā)生來源于在基因調(diào)控元件附近插入重復(fù)元件的甲 基化以及之后的正向選擇的原因。 
胚與胚乳中甲基化狀況 原文:Extensive Demethylation of Repetitive Elements During Seed Development Underlies Gene Imprinting, Science, 200 賓利哥哥歡迎大家轉(zhuǎn)發(fā)哦!~~~  
|