MeDIP-Seq(Methylated DNA Immunoprecipitation Sequencing)測序是基于抗體富集原理進(jìn)行測序的全基因組甲基化檢測技術(shù),采用甲基化DNA免疫共沉淀技術(shù),通過5'-甲基胞嘧啶抗體特異性富集基因組上發(fā)生甲基化的DNA片段,然后通過高通量測序可以在全基因組水平上進(jìn)行高精度的CpG密集的高甲基化區(qū)域研究。 研究人員可以利用MeDIP-Seq技術(shù)快速有效地尋找基因組上的甲基化區(qū)域,從而比較不同細(xì)胞、組織或疾病樣本間的DNA甲基化修飾模式的差異。 技術(shù)策略:  技術(shù)優(yōu)勢: ■ 精確度高:基因組位點(diǎn)定位精確性可達(dá)± 50bp。 ■ 可靠性高:直接對甲基化片段進(jìn)行測序和定量,無交叉反應(yīng)和背景噪音。 ■ 檢測范圍廣:全基因組范圍內(nèi)甲基化區(qū)域研究。 ■ 高性價比:通過抗體富集高甲基化區(qū)域進(jìn)行測序,有效降低測序費(fèi)用。 技術(shù)路線:  MeDIP-seq生物信息學(xué)分析 將測序結(jié)果與參考基因組比對,比對上唯一位置的序列用于后續(xù)標(biāo)準(zhǔn)信息分析及個性化分析。信息分析流程如下:  生物信息分析流程圖,首先要對測序數(shù)據(jù)進(jìn)行去接頭去低值處理,然后進(jìn)行比對分析,采用唯一比對的reads進(jìn)行下一步分析。之后對唯一比對reads在基因組,基因元件的分布進(jìn)行分析。檢測到唯一比對的reads的富集區(qū)(Peak),并對Peak進(jìn)行分析。最后進(jìn)行差異Peak的分析。 1. Data clean 測序完成后,去污染,去接頭及去除低質(zhì)量數(shù)據(jù)。 數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)信息 樣品名稱 | read長度(bp) | reads數(shù)量 | 原始數(shù)據(jù)(Gb) | a | 49 | 24,489,796 | 1.2 | b | 49 | 24,489,796 | 1.2 | c | 49 | 24,489,796 | 1.2 | 2. MeDIP-Seq序列與參考序列的比對 將MeDIP-Seq序列與參考基因組進(jìn)行比對,每條read最多容許2個堿基的錯配,生成最終比對結(jié)果文件 *.sop。 比對信息統(tǒng)計(jì) 樣品名稱 | 原始reads數(shù)量 | 比對reads數(shù) | 比對率(%) | 有效鏈深度 | 唯一比對reads數(shù) | 唯一比對率(%) | a | 24,489,796 | 21,449,285 | 87.58 | 2.82 | 12,199,426 | 49.81 | b | 24,489,796 | 21,759,594 | 88.85 | 2.86 | 12,328,166 | 50.34 | c | 24,489,796 | 21,979,358 | 89.75 | 2.89 | 12,193,301 | 49.79 | 比對率=比對reads數(shù)/原始reads數(shù)量 有效鏈深度=比對bases數(shù)/基因組參考序列大小 唯一比對率=唯一比對reads數(shù)/原始reads數(shù)量 3. MeDIP-Seq數(shù)據(jù)的全基因組分布趨勢 3.1 MeDIP-seq 測序 reads 在全基因組上的覆蓋深度 計(jì)算全基因組上每一個堿基的覆蓋深度,得到不同覆蓋深度下的堿基百分比,即不同覆蓋深度下的堿基對應(yīng)基因組的覆蓋度。 覆蓋深度:特定位點(diǎn)被測序 reads 所覆蓋的次數(shù)。例如某一個位點(diǎn)上的覆蓋深度為 10X,則表明這個位點(diǎn)被測序 reads 覆蓋了 10 次。而對于特定的 DNA 區(qū)域,或者全基因組范圍,則可以計(jì)算平均覆蓋深度。 基因組覆蓋度:符合特定條件的堿基數(shù)所能覆蓋的全基因組堿基數(shù)的比例。下圖中橫軸表示測序深度,縱軸表示不低于這一特定測序深度的基因組覆蓋度。  3.2 MeDIP-seq 測序 reads 在 CpG 位點(diǎn)上的覆蓋深度 MeDIP-seq 測序reads在CpG位點(diǎn)上的覆蓋深度計(jì)算全基因組上每一個CpG(Watson鏈,Crick鏈,雙鏈)的覆蓋深度,得到不同覆蓋深度下CpG位點(diǎn)的覆蓋度,即一定覆蓋深度以上的CpG位點(diǎn)在MeDIP-seq所測得的全部CpG位點(diǎn)中所占比例。  3.3 MeDIP-Seq測序reads在不同基因功能元件上的分布 對測序reads在9種基因組功能元件上的分布進(jìn)行比較分析,有助于了解不同功能元件的甲基化修飾特征。這9種功能元件包括CpG Islands, Repetitive Elements, gene upstream2k, first exon, first intron, internal exons, internal introns, last exon , downstream2k。另外,在此基礎(chǔ)上對Repetitive Elements區(qū)域進(jìn)一步細(xì)分,統(tǒng)計(jì)reads在不同類型Repeat區(qū)域的分布情況。 橫軸表示不同基因區(qū)域,縱軸表示分布在特定基因區(qū)域的reads占可比對reads總數(shù)的比例。  reads在不同基因功能元件上的分布  reads 在重復(fù)區(qū)域的分布情況 3.4 MeDIP-seq 測序 reads 在不同 GC 含量區(qū)域中的分布 以200bp大小的窗口對基因組進(jìn)行掃描,計(jì)算MeDIP-Seq序列在不同GC含量的窗口的分布情況,可以反映出測序數(shù)據(jù)在不同GC含量區(qū)域的富集性分布特征。 下圖中橫軸代表不同GC含量區(qū)域,縱軸代表特定GC含量區(qū)域的reads總數(shù)占所有可比對reads總數(shù)的比例。  4. 統(tǒng)計(jì) MeDIP-seq 數(shù)據(jù)富集區(qū)域 ( Peak ) 的信息 對 MeDIP-seq 序列進(jìn)行 Peak 掃描,并進(jìn)行相關(guān)統(tǒng)計(jì)分析。 4.1 Peak 掃描 全基因組范圍掃描尋找Peak區(qū)域,得到Peak在基因組上的位置信息。 表3-3 Peak信息統(tǒng)計(jì) 樣品名稱 | Peak 數(shù)量 | Peak平均長度 | Peak長度中位數(shù) | Peak總長度 | Peak覆蓋度 | a | 41,554 | 1,237.80 | 1,108 | 51,435,436 | 13.81% | b | 43,020 | 1,200.41 | 1,065 | 51,641,544 | 13.87% | c | 43,358 | 1,251.26 | 1,109 | 54,252,026 | 14.57% | 4.2 尋找 Peak 相關(guān)基因 根據(jù)Peak掃描的結(jié)果,尋找Peak相關(guān)基因。 4.3 統(tǒng)計(jì)Peak在不同基因功能元件上的分布 分別統(tǒng)計(jì)Peak在upstream2k,first exon,first intron,internal exons,internal introns,last exon,downstream2k等7個基因功能元件上的個數(shù)分布和覆蓋度分布。 下圖中橫軸表示各個功能元件區(qū)域,縱軸表示特定功能元件所包含的peak個數(shù)。  下圖中橫軸表示各個功能元件區(qū)域,縱軸表示特定功能元件區(qū)域所包含的peak在該區(qū)域的覆蓋度(即覆蓋堿基數(shù)與該區(qū)域堿基總數(shù)的比值)。  將每個基因元件按長度平均分成10份,以曲線圖的形式反映每一個功能元件區(qū)域的 peak覆蓋度變化趨勢。  5. 基于 Peak 的多樣品間差異性分析 5.1分析兩個樣品間的 peak 相關(guān)差異基因 基于兩個樣本的MeDIP測序數(shù)據(jù),針對各基因功能元件區(qū)域的Peak覆蓋度做差異分析,找到具有差異的基因。 篩選條件為:p值≤0.05,兩個樣本在相同基因元件內(nèi)都有覆蓋,且覆蓋度的差異在 4 倍以上。下述表格中的數(shù)值表示差異基因個數(shù)。 # of genes | A vs B | upstream2k | 833 | first exon | 65 | First intron | 559 | Internal exons | 517 | Internal introns | 78 | Last exon | 220 | downstream2k | 731 | 5.2 對兩個樣品間的差異基因進(jìn)行GO功能富集分析及pathway功能分析 Peak相關(guān)差異基因所具有的功能聚類,代表兩個樣品在特定生物學(xué)功能上具有與DNA 甲基化修飾相關(guān)的差異性。下圖為差異基因的GO功能分析結(jié)果。橫軸代表GO功能分類項(xiàng),左縱軸代表與GO相關(guān)的基因的比例,右縱軸代表與GO相關(guān)基因的數(shù)量,每一個特定功能分類項(xiàng)中均列出兩個樣品在此功能分類下的分布情況。 圖中所標(biāo)down與up,是將sample1與sample2進(jìn)行比較后所得到的內(nèi)容,sample2覆 蓋度高于sample1的基因即為up-methylated,反之則為down-methylated。  6. 個性化信息分析 根據(jù)客戶具體項(xiàng)目需求進(jìn)行個性化分析。 案例分析: MeDIP-Seq發(fā)現(xiàn)種子發(fā)育過程中重復(fù)元件廣泛的去甲基化是基因印記的基礎(chǔ) 在植物中,基因印記現(xiàn)象往往發(fā)生在胚乳中。研究人員以兩個擬南芥品種Col- gl和Ler各自的胚和胚乳為材料,利用medIP測序的手段對全基因組的甲基化譜進(jìn)行研究。發(fā)現(xiàn)伴隨著胚乳的發(fā)育以及胚乳特異的一些基因的表達(dá)發(fā)生了大規(guī)模甲基化的變化。胚乳中重復(fù)元件發(fā)生了廣泛的去甲基化。并且,通過將胚乳中甲基化程度降低的區(qū)域與胚乳表達(dá)偏好性(preferential expression in endosperm)關(guān)聯(lián)起來作為候選印記基因的方式,尋找到了新的印記基因。所有的結(jié)果說明植物中印記的發(fā)生來源于在基因調(diào)控元件附近插入重復(fù)元件的甲基化以及之后的正向選擇的原因。  胚與胚乳中甲基化狀況 原文:Extensive Demethylation of Repetitive Elements During Seed Development Underlies Gene Imprinting, Science, 2009
|