SNP芯片分析

wuhuaguo88l 2017-08-15

展開全文

全基因組關(guān)聯(lián)分析

全基因組關(guān)聯(lián)研究（Genome-wide association study，GWAS）是用來檢測全基因組范圍的遺傳變異與可觀測的性狀之間的遺傳關(guān)聯(lián)的一種策略?；诟呙芏萐NP（Single nucleotide polymorphism）標(biāo)記的全基因組關(guān)聯(lián)分析是近幾年提出的復(fù)雜性狀功能基因鑒定的新策略，其基本思想是基于連鎖不平衡的原理，直接檢測基因本身或基因附件的微小區(qū)域（<0.1 cM）的SNP標(biāo)記與復(fù)雜性狀表型信息的關(guān)聯(lián)來實(shí)現(xiàn)目標(biāo)性狀或疾病的精細(xì)定位。

GWAS的統(tǒng)計(jì)分析依據(jù)研究設(shè)計(jì)不同可采用不同的分析方法，目前常規(guī)的分析方法如下圖所示：

技術(shù)路線

1. 數(shù)據(jù)質(zhì)量控制
從質(zhì)量方面對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，保證分析數(shù)據(jù)的準(zhǔn)確性及結(jié)果可靠性。

去除最小基因頻率（Minor allele frequency, MAF）小于0.05的SNP位點(diǎn)
去除檢出率（Callrate）小于0.90的SNP位點(diǎn)
去除哈溫檢測中P值小于10E-3的SNP位點(diǎn)
去除檢出率小于0.90的個(gè)體
去除重復(fù)樣本以及有一級(jí)親緣關(guān)系的樣本

2. 主成分分析
主成分分析（Principal Component Analysis, PCA）的原理是找到數(shù)據(jù)方差最大的兩個(gè)或者三個(gè)主成分(就是向量)，將數(shù)據(jù)投影在這些主成分上，以達(dá)到降維的目的，通過圖像上的點(diǎn)之間的相互距離來顯示樣品之間的相似度?？疾鞓悠返姆植记闆r，驗(yàn)證實(shí)驗(yàn)設(shè)計(jì)的合理性，生物學(xué)重復(fù)樣品的均一性（至少2 組數(shù)據(jù)）。
將不同區(qū)域的樣本進(jìn)行PCA主成分分析，觀察樣本的聚類情況，探索地域差異與遺傳差異對(duì)群體差異的影響。選擇使用合適方法對(duì)關(guān)聯(lián)分析的結(jié)果進(jìn)行校正，減少人群分層帶來的假陽性

3. 關(guān)聯(lián)分析
針對(duì)不同的疾病分型或性狀表型，采用合適的模型進(jìn)行關(guān)聯(lián)分析，分析方法包括：卡方檢驗(yàn)、Fisher精確性檢驗(yàn)、Cochran-Armitage趨勢檢驗(yàn)及傳遞不平衡檢驗(yàn)。

Manhattan plot

QQ plot

4. 區(qū)域關(guān)聯(lián)分析圖
以4號(hào)染色體上的某一區(qū)段為例

5. 顯著區(qū)段連鎖不平衡分析
連鎖不平衡（linkage disequilibrium）是指基因組中不同基因座間存在的非隨機(jī)關(guān)聯(lián)，即不同基因座的非等位基因間的非隨機(jī)組合。LD Plot表示該基因所有snp的的連鎖情況，各個(gè)方塊的顏色由淺至深（白-紅），表示連鎖程度由低到高，深紅色表示完全連鎖。

6.顯著位點(diǎn)注釋
基于各類公共數(shù)據(jù)庫（1000G、dbSNP、Cosmic、OMIM、KEGG/GO）對(duì)顯著位點(diǎn)進(jìn)行注釋，綜合注釋信息及關(guān)聯(lián)分析結(jié)果，在全基因組范圍內(nèi)篩選與疾病關(guān)聯(lián)的位點(diǎn)，并計(jì)算這些位點(diǎn)等位基因頻數(shù)，危險(xiǎn)等位基因頻數(shù)，OR值以及矯正后的p-value值。

家系連鎖分析

在家系中，位于同一條染色體上的兩個(gè)基因座（QTL與遺傳標(biāo)記）在減數(shù)分裂的過程中會(huì)發(fā)生交換和重組，染色體上的兩個(gè)基因組相距越遠(yuǎn)，發(fā)生重組的幾率越高，兩個(gè)基因座在一起傳給后代的機(jī)會(huì)越少。因此，由標(biāo)記與QTL間的重組率可估算出兩者間的距離及連鎖程度。家系連鎖分析就是通過尋找與QTL緊密連鎖的某一標(biāo)記，從而確定該基因在染色體上的粗略定位。

進(jìn)行連鎖分析所需要的條件包括，完整且正確的家系系譜信息及明確的患病與否，高密度的遺傳標(biāo)記。

LOD plot
LOD(log odds score), 優(yōu)勢對(duì)數(shù)記分法．是根據(jù)遺傳標(biāo)志與致病基因的連鎖,和在家系中的重組值,即兩者之間的遺傳距離,得出兩者連鎖的似然性比例。Lod值為0，意味著連鎖假設(shè)與不連鎖假設(shè)的可能性相等；Lod值為正值，有利于連鎖；Lod值為負(fù)值，表示有一定重組率的連鎖。顯著的域值是﹢3和﹢2。Lod﹦﹢3時(shí)，連鎖的概率為95％。

單倍型分析
單倍型又稱單體型，是tagSNP的call在染色單體上的線性排列，單倍型分析的目的是看是否所有患病個(gè)體都繼承了同樣的單體型。在下圖中，患病個(gè)體畫框的里面單體型是一樣的。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： wuhuaguo88l > 《生物信息》

舉報(bào)/認(rèn)領(lǐng)