全基因組關(guān)聯(lián)分析 GWAS的統(tǒng)計(jì)分析依據(jù)研究設(shè)計(jì)不同可采用不同的分析方法,目前常規(guī)的分析方法如下圖所示: ![]() 技術(shù)路線 ![]() 從質(zhì)量方面對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,保證分析數(shù)據(jù)的準(zhǔn)確性及結(jié)果可靠性。
2. 主成分分析 主成分分析(Principal Component Analysis, PCA)的原理是找到數(shù)據(jù)方差最大的兩個(gè)或者三個(gè)主成分(就是向量),將數(shù)據(jù)投影在這些主成分上,以達(dá)到降維的目的,通過圖像上的點(diǎn)之間的相互距離來顯示樣品之間的相似度??疾鞓悠返姆植记闆r,驗(yàn)證實(shí)驗(yàn)設(shè)計(jì)的合理性,生物學(xué)重復(fù)樣品的均一性(至少2 組數(shù)據(jù))。 將不同區(qū)域的樣本進(jìn)行PCA主成分分析,觀察樣本的聚類情況,探索地域差異與遺傳差異對(duì)群體差異的影響。選擇使用合適方法對(duì)關(guān)聯(lián)分析的結(jié)果進(jìn)行校正,減少人群分層帶來的假陽性 ![]() 3. 關(guān)聯(lián)分析 針對(duì)不同的疾病分型或性狀表型,采用合適的模型進(jìn)行關(guān)聯(lián)分析,分析方法包括:卡方檢驗(yàn)、Fisher精確性檢驗(yàn)、Cochran-Armitage趨勢檢驗(yàn)及傳遞不平衡檢驗(yàn)。 Manhattan plot ![]() 4. 區(qū)域關(guān)聯(lián)分析圖 以4號(hào)染色體上的某一區(qū)段為例 ![]() 5. 顯著區(qū)段連鎖不平衡分析 連鎖不平衡(linkage disequilibrium)是指基因組中不同基因座間存在的非隨機(jī)關(guān)聯(lián),即不同基因座的非等位基因間的非隨機(jī)組合。LD Plot表示該基因所有snp的的連鎖情況,各個(gè)方塊的顏色由淺至深(白-紅),表示連鎖程度由低到高,深紅色表示完全連鎖。 ![]() 6.顯著位點(diǎn)注釋 基于各類公共數(shù)據(jù)庫(1000G、dbSNP、Cosmic、OMIM、KEGG/GO)對(duì)顯著位點(diǎn)進(jìn)行注釋,綜合注釋信息及關(guān)聯(lián)分析結(jié)果,在全基因組范圍內(nèi)篩選與疾病關(guān)聯(lián)的位點(diǎn),并計(jì)算這些位點(diǎn)等位基因頻數(shù),危險(xiǎn)等位基因頻數(shù),OR值以及矯正后的p-value值。 家系連鎖分析 在家系中,位于同一條染色體上的兩個(gè)基因座(QTL與遺傳標(biāo)記)在減數(shù)分裂的過程中會(huì)發(fā)生交換和重組,染色體上的兩個(gè)基因組相距越遠(yuǎn),發(fā)生重組的幾率越高,兩個(gè)基因座在一起傳給后代的機(jī)會(huì)越少。因此,由標(biāo)記與QTL間的重組率可估算出兩者間的距離及連鎖程度。家系連鎖分析就是通過尋找與QTL緊密連鎖的某一標(biāo)記,從而確定該基因在染色體上的粗略定位。 進(jìn)行連鎖分析所需要的條件包括,完整且正確的家系系譜信息及明確的患病與否,高密度的遺傳標(biāo)記。 ![]() 單倍型分析 單倍型又稱單體型,是tagSNP的call在染色單體上的線性排列,單倍型分析的目的是看是否所有患病個(gè)體都繼承了同樣的單體型。在下圖中,患病個(gè)體畫框的里面單體型是一樣的。 ![]()
|
|