GWAS分析原理淺談

生物_醫(yī)藥_科研 2018-12-15

展開全文

引言

遺傳學(xué)的研究成功地找到了很多致病突變體，這些突變體是指染色體上的變異位點。GWAS（全基因組關(guān)聯(lián)分析）試圖找到染色體上的變異位點，并研究這些變異位點與疾病或其它性狀的關(guān)聯(lián)。

GWAS常用的方法是回歸分析?；貧w分析的一個假設(shè)是，數(shù)據(jù)是獨立分布的（identically and independently distributed (i.i.d.)）。實際上，很多個體可能有遠(yuǎn)緣關(guān)系，個體間的這種親緣關(guān)系會給關(guān)聯(lián)分析帶來困難。當(dāng)個體間存在親緣關(guān)系的時候，會導(dǎo)致關(guān)聯(lián)分析出現(xiàn)假陽性的結(jié)果。

現(xiàn)在有不同的計算方法在回歸分析中考慮群體結(jié)構(gòu)的影響，這篇小文探索了關(guān)聯(lián)分析中假陽性的來源。

常規(guī)GWAS

關(guān)聯(lián)分析的目標(biāo)是尋找snp和性狀之間的關(guān)系。Fig 1a中顯示某個snp位點和血壓的關(guān)系，可以看到紅色標(biāo)示出的C位點與高血壓有明顯的關(guān)系。

為了研究某個snp位點與某個性狀的關(guān)聯(lián)在統(tǒng)計上是否顯著，我們有兩個假設(shè)。第一個假設(shè)是H0假設(shè)，該假設(shè)也被稱為null hypothesis，它認(rèn)為snp和性狀沒有關(guān)聯(lián)，也即是說，性狀y等于總體平均與環(huán)境因素的加和。如果沒有其它的信息，我們認(rèn)為H0假設(shè)是正確的，也就是說某個snp并不影響性狀，如Fig 1b所示。

Fig 1.

第二個假設(shè)是H1假設(shè)，該假設(shè)認(rèn)為snp和性狀存在關(guān)系，也就是說當(dāng)存在某個snp的時候，某個性狀或某個疾病會傾向于發(fā)生在該個體身上。如Fig 1c所示，該公式中的β是指該snp對性狀影響的大小，也就是說， β越大，該snp對性狀的影響越大，在文獻(xiàn)中經(jīng)常把 β 稱作effect size。如果H1假設(shè)中的擬合達(dá)到一定的程度，就可以說snp與性狀之間存在顯著性的關(guān)系。

某個個體的基因型可以用0或1或2來表示，0代表該snp位點沒有出現(xiàn)變異，1代表該位點有一個變異，2代表該位點有兩個變異。為了減少關(guān)聯(lián)分析中的復(fù)雜度，需要對基因型做一個歸一化的轉(zhuǎn)換。歸一化后的基因型如Fig 2所示。該公式中的pk是指某個變異的平均頻率。

Fig 2.

我們需要擬合的公式如Fig 3所示。

Fig 3.

其中環(huán)境因素是一個隨機變量，它的分布如Fig 4中所示。

Fig 4.

根據(jù)觀測到的數(shù)據(jù)，我們可以計算如下的量：

Fig 5.

這些公式看起來比較簡單，部分原因是我們用了歸一化的基因型。

下一步就是檢驗每個snp與表型的關(guān)系是否具有統(tǒng)計學(xué)上的顯著性，用到的公式是Fig 6:

Fig 6.

準(zhǔn)確基因模型

在上邊的討論中，我們用到了Fig 7中的（1）式，但實際上，表型數(shù)據(jù)是由（2）式產(chǎn)生的。在（2）式中多出的項稱為unmodelled factor，這個因子是假陽性的來源。

Fig 7.

一個例子：群體結(jié)構(gòu)影響關(guān)聯(lián)分析

實驗材料：classical inbred laboratory mouse vs wild-derived strains，前者來源于寵物鼠，后者是從自然界捕獲的鼠，這兩類鼠的進(jìn)化樹如Fig 8所示，可以看到野生的鼠形成一個population，寵物鼠形成一個population.

Fig 8.

實驗數(shù)據(jù)：鼠的體重，如Fig 9所示。

Fig 9.

實驗結(jié)果：如果我們用常規(guī)線性模型來擬合數(shù)據(jù)，結(jié)果如Fig 10所示.

Fig 10.

10a是每個snp位點計算的p值，然后取對數(shù)后進(jìn)行作圖，10b和10c是用另外一種方式對數(shù)據(jù)進(jìn)行顯示。這兩個圖的基本思路是：在我們的H0假設(shè)中，snp位點與表型是沒有關(guān)系的，在這個假設(shè)下所有位點的p值會有一個分布，但是實際上我們通過回歸分析會得到另一個分布，10b和10c就是計算這兩個分布是否一致，如果這兩個分布一致，那么圖中的兩條直線就會重合，如果不一致，那么這兩條線就會出現(xiàn)分離。

數(shù)據(jù)分析：Fig 10中的數(shù)據(jù)一看就有問題，不可能有這么多的snp，那么問題出在哪里呢？Fig 11中的小點代表snp，大點代表體重，點的顏色越相近，代表值越相似。Fig 11b中的線段的長度代表兩個strain的親緣關(guān)系。差異snp越多，則線段越長，代表兩個strain的親緣關(guān)系越遠(yuǎn)。

顯然，遺傳上的差異可以導(dǎo)致性狀的差異，但是并不是所有的遺傳差異都會造成性狀上的差異，這就是假陽性出現(xiàn)的原因。

Fig 11.

混合線性模型

混合線性模型通過引入一個額外的項來矯正線性模型導(dǎo)致的誤差。首先通過下邊的例子來說明怎樣估計unmodeled factors的大小。Fig12.b中B6和C3H這兩個strain的基因型非常相似，它們只有一個snp不一樣。在這里我們假設(shè)偶數(shù)位點的snp影響性狀，而奇數(shù)位點的snp則對性狀沒有影響。因為B6和C3H的基因型非常相似，所以它們的unmodeled factors也相似。相反，B6和CAST的基因型很不一樣，所以它們的unmodeled factor也不一樣。

Fig 12.

Unmodeled factors可以通過兩個strain的相同snp的個數(shù)來表征，我們可以建立一個矩陣，如Fig 13所示，矩陣中的元素代表兩個strain相同snp的數(shù)目。根據(jù)這個矩陣可以得到unmodeled factor的大小，然后用一個隨機變量u來代表unmodeled factors。u也被稱為隨機效應(yīng)或variance component。