日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

GWAS分析原理淺談

 生物_醫(yī)藥_科研 2018-12-15

引言

遺傳學(xué)的研究成功地找到了很多致病突變體,這些突變體是指染色體上的變異位點。GWAS(全基因組關(guān)聯(lián)分析)試圖找到染色體上的變異位點,并研究這些變異位點與疾病或其它性狀的關(guān)聯(lián)。

GWAS常用的方法是回歸分析?;貧w分析的一個假設(shè)是,數(shù)據(jù)是獨立分布的(identically and independently distributed (i.i.d.))。實際上,很多個體可能有遠(yuǎn)緣關(guān)系,個體間的這種親緣關(guān)系會給關(guān)聯(lián)分析帶來困難。當(dāng)個體間存在親緣關(guān)系的時候,會導(dǎo)致關(guān)聯(lián)分析出現(xiàn)假陽性的結(jié)果。

現(xiàn)在有不同的計算方法在回歸分析中考慮群體結(jié)構(gòu)的影響,這篇小文探索了關(guān)聯(lián)分析中假陽性的來源。

常規(guī)GWAS

關(guān)聯(lián)分析的目標(biāo)是尋找snp和性狀之間的關(guān)系。Fig 1a中顯示某個snp位點和血壓的關(guān)系,可以看到紅色標(biāo)示出的C位點與高血壓有明顯的關(guān)系。

為了研究某個snp位點與某個性狀的關(guān)聯(lián)在統(tǒng)計上是否顯著,我們有兩個假設(shè)。第一個假設(shè)是H0假設(shè),該假設(shè)也被稱為null hypothesis,它認(rèn)為snp和性狀沒有關(guān)聯(lián),也即是說,性狀y等于總體平均與環(huán)境因素的加和。如果沒有其它的信息,我們認(rèn)為H0假設(shè)是正確的,也就是說某個snp并不影響性狀,如Fig 1b所示。

Fig 1.

第二個假設(shè)是H1假設(shè),該假設(shè)認(rèn)為snp和性狀存在關(guān)系,也就是說當(dāng)存在某個snp的時候,某個性狀或某個疾病會傾向于發(fā)生在該個體身上。如Fig 1c所示,該公式中的β是指該snp對性狀影響的大小,也就是說, β越大,該snp對性狀的影響越大,在文獻(xiàn)中經(jīng)常把 β 稱作effect size。如果H1假設(shè)中的擬合達(dá)到一定的程度,就可以說snp與性狀之間存在顯著性的關(guān)系。

某個個體的基因型可以用0或1或2來表示,0代表該snp位點沒有出現(xiàn)變異,1代表該位點有一個變異,2代表該位點有兩個變異。為了減少關(guān)聯(lián)分析中的復(fù)雜度,需要對基因型做一個歸一化的轉(zhuǎn)換。歸一化后的基因型如Fig 2所示。該公式中的pk是指某個變異的平均頻率。

Fig 2.

我們需要擬合的公式如Fig 3所示。

Fig 3.

其中環(huán)境因素是一個隨機變量,它的分布如Fig 4中所示。

Fig 4.

根據(jù)觀測到的數(shù)據(jù),我們可以計算如下的量:

Fig 5.

這些公式看起來比較簡單,部分原因是我們用了歸一化的基因型。

下一步就是檢驗每個snp與表型的關(guān)系是否具有統(tǒng)計學(xué)上的顯著性,用到的公式是Fig 6:

Fig 6.

準(zhǔn)確基因模型

在上邊的討論中,我們用到了Fig 7中的(1)式,但實際上,表型數(shù)據(jù)是由(2)式產(chǎn)生的。在(2)式中多出的項稱為unmodelled factor,這個因子是假陽性的來源。

Fig 7.

一個例子:群體結(jié)構(gòu)影響關(guān)聯(lián)分析

實驗材料:classical inbred laboratory mouse  vs wild-derived strains,前者來源于寵物鼠,后者是從自然界捕獲的鼠,這兩類鼠的進(jìn)化樹如Fig 8所示,可以看到野生的鼠形成一個population,寵物鼠形成一個population.

Fig 8.

實驗數(shù)據(jù):鼠的體重,如Fig 9所示。

Fig 9.

實驗結(jié)果:如果我們用常規(guī)線性模型來擬合數(shù)據(jù),結(jié)果如Fig 10所示.

Fig 10.

10a是每個snp位點計算的p值,然后取對數(shù)后進(jìn)行作圖,10b和10c是用另外一種方式對數(shù)據(jù)進(jìn)行顯示。這兩個圖的基本思路是:在我們的H0假設(shè)中,snp位點與表型是沒有關(guān)系的,在這個假設(shè)下所有位點的p值會有一個分布,但是實際上我們通過回歸分析會得到另一個分布,10b和10c就是計算這兩個分布是否一致,如果這兩個分布一致,那么圖中的兩條直線就會重合,如果不一致,那么這兩條線就會出現(xiàn)分離。

數(shù)據(jù)分析:Fig 10中的數(shù)據(jù)一看就有問題,不可能有這么多的snp,那么問題出在哪里呢?Fig 11中的小點代表snp,大點代表體重,點的顏色越相近,代表值越相似。Fig 11b中的線段的長度代表兩個strain的親緣關(guān)系。差異snp越多,則線段越長,代表兩個strain的親緣關(guān)系越遠(yuǎn)。

顯然,遺傳上的差異可以導(dǎo)致性狀的差異,但是并不是所有的遺傳差異都會造成性狀上的差異,這就是假陽性出現(xiàn)的原因。

Fig 11.

混合線性模型

混合線性模型通過引入一個額外的項來矯正線性模型導(dǎo)致的誤差。首先通過下邊的例子來說明怎樣估計unmodeled factors的大小。Fig12.b中B6和C3H這兩個strain的基因型非常相似,它們只有一個snp不一樣。在這里我們假設(shè)偶數(shù)位點的snp影響性狀,而奇數(shù)位點的snp則對性狀沒有影響。因為B6和C3H的基因型非常相似,所以它們的unmodeled factors也相似。相反,B6和CAST的基因型很不一樣,所以它們的unmodeled factor也不一樣。


Fig 12.

Unmodeled factors可以通過兩個strain的相同snp的個數(shù)來表征,我們可以建立一個矩陣,如Fig 13所示,矩陣中的元素代表兩個strain相同snp的數(shù)目。根據(jù)這個矩陣可以得到unmodeled factor的大小,然后用一個隨機變量u來代表unmodeled factors。u也被稱為隨機效應(yīng)或variance component。

Fig 13.

【參考文獻(xiàn)】

Martin L S, Eskin E. Population Structure in Genetic Studies: Confounding Factors and Mixed Models[J]. bioRxiv, 2017: 092106.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多