日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

統(tǒng)計(jì)遺傳學(xué):第四章,GWAS分析

 育種數(shù)據(jù)分析 2022-07-03 發(fā)布于河南

大家好,我是鄧飛,今天繼續(xù)介紹《統(tǒng)計(jì)遺傳學(xué)》這本書,本次介紹第四章:GWAS分析,主要是綜述介紹,具體的實(shí)操介紹要到八九十章節(jié)。

這一章節(jié)內(nèi)容很豐富,人類中GWAS關(guān)注的點(diǎn),GWAS和LD與填充的關(guān)系,GWAS中影響的因素,包括群體結(jié)構(gòu)、異質(zhì)性。另外還有GWAS結(jié)果的矯正,包括Bonferroni ,F(xiàn)DR以及置換檢驗(yàn),最后還有位點(diǎn)注釋。

不同學(xué)科,GWAS關(guān)注的點(diǎn)不一樣,動(dòng)植物可能就是群體分析+基因注釋,人類中會(huì)有多基因得分(PGS),這個(gè)相當(dāng)于動(dòng)植物中的分子標(biāo)記輔助(MAS)或者是基因組選擇(GS)。雖然概念有所區(qū)分,但是理論都是相通的。

這本書的電子版,之前是不能選擇復(fù)制的,后來(lái)有位老師將其轉(zhuǎn)化為文字版的,就可以復(fù)制了,這樣結(jié)合pdf閱讀器的翻譯,可以更方便的閱讀。明天介紹一下使用的方法。

引文部分是原書的谷歌翻譯,正文部分是我的理解。

第一部分基礎(chǔ),分為六個(gè)章節(jié),分別是:

今天,介紹第四章的內(nèi)容,GWAS分析,看一下目錄:

  • 了解全基因組關(guān)聯(lián)研究·
  • 掌握基因分型和測(cè)序陣列的基礎(chǔ)和局限性及其與連鎖不平衡和填充的關(guān)系
  • 了解全基因組關(guān)聯(lián)研究研究設(shè)計(jì)、元分析和數(shù)據(jù)分析計(jì)劃
  • 了解全基因組關(guān)聯(lián)研究的統(tǒng)計(jì)推斷、方法和異質(zhì)性的基本方面
  • 掌握質(zhì)量控制的類型
  • 了解NHGRI-EBI GWAS目錄以概述全基因組關(guān)聯(lián)研究
  • 認(rèn)識(shí)到在祖先、地理、時(shí)間,迄今為止全基因組關(guān)聯(lián)研究的人口多樣性及其對(duì)研究的影響
  • 認(rèn)識(shí)這一研究領(lǐng)域的未來(lái)方向

簡(jiǎn)介和背景

?

隨著基因分型技術(shù)的發(fā)展、成本的降低和先進(jìn)數(shù)據(jù)分析方法的發(fā)展,遺傳關(guān)聯(lián)研究的設(shè)計(jì)在過(guò)去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標(biāo)準(zhǔn)的,但早期的研究只關(guān)注有限數(shù)量的“候選”基因座。候選基因研究一詞是指這一領(lǐng)域的早期工作,其重點(diǎn)是預(yù)先確定的感興趣的基因座,這些基因座被認(rèn)為與所研究的性狀有關(guān)。正如我們?cè)陉P(guān)于基因-環(huán)境相互作用的第6章中詳細(xì)討論的那樣,許多早期候選基因研究由于多種原因存在問(wèn)題,主要是由于缺乏重復(fù),雖然我們的目標(biāo)是讓這一領(lǐng)域的新研究人員避免犯類似的錯(cuò)誤,但我們應(yīng)該注意到,一些候選基因研究仍然成功地用于各種非行為醫(yī)學(xué)表型。當(dāng)時(shí),許多性狀的極端多基因性和候選基因作為藥物靶點(diǎn)的失?。ɡ缫钟舭Y)讓許多人感到真正的驚訝。另一種選擇是全基因組關(guān)聯(lián)研究(GWAS),該研究同時(shí)測(cè)量了數(shù)百萬(wàn)個(gè)基因位點(diǎn)。

GWAS是目前用于確定單核苷酸多態(tài)性(SNP)與表型之間關(guān)聯(lián)的主要方法。正如我們稍后更詳細(xì)地討論的那樣,GWASs測(cè)試了數(shù)百萬(wàn)個(gè)單獨(dú)的回歸模型,以確定遺傳變異和表型之間的關(guān)聯(lián)?;仡櫟谝徽拢硇涂梢允菃位蛐誀?。

受單個(gè)基因內(nèi)變異的強(qiáng)烈影響。但許多是多基因復(fù)雜性狀,是多基因變異及其與行為和環(huán)境因素相互作用的結(jié)果。GWAS的結(jié)果顯示了每個(gè)單核苷酸多態(tài)性與特定性狀或表型的關(guān)聯(lián)。與候選基因研究相比,GWASs是無(wú)假設(shè)的,可以在所有基因型區(qū)域中尋找關(guān)聯(lián)。正如前面在第1章中所討論的,GWAS研究了將我們彼此區(qū)分開來(lái)的多態(tài)性。除了單卵(即同卵)雙胞胎外,這是0.1%的位點(diǎn)差異是我們與眾不同的原因。

由于許多性狀是復(fù)雜的,并且與多個(gè)遺傳位點(diǎn)(即多基因)相關(guān),GWAS通常識(shí)別出許多遺傳變異,每個(gè)變異對(duì)表型的影響很小。由于影響大小較小,需要非常大的數(shù)據(jù)源,GWAS發(fā)現(xiàn)通常會(huì)在多個(gè)數(shù)據(jù)源上進(jìn)行許多GWAS分析,然后合并到一個(gè)元分析中。在GWASs中識(shí)別的大多數(shù)變體不被認(rèn)為是生物學(xué)上的因果關(guān)系,而是由于連鎖不平衡(LD),可以識(shí)別包含一個(gè)或多個(gè)生物學(xué)功能變體的區(qū)域。到2019年初,已經(jīng)進(jìn)行了近4000次GWASs,從不可知的角度確定了數(shù)千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病,如乳腺癌、阿爾茨海默病和2型糖尿病,但也包括人體測(cè)量(身高、體重)和行為特征,如初生年齡或教育程度。

本章介紹了GWAS研究和基本概念。由于GWASs的結(jié)果通常是許多實(shí)際應(yīng)用的基礎(chǔ),因此本章對(duì)于第二部分的后續(xù)應(yīng)用章節(jié)至關(guān)重要,包括如何對(duì)遺傳數(shù)據(jù)進(jìn)行質(zhì)量控制(QC)(第8章)。在本章中,我們將介紹GWAS方法學(xué)的基礎(chǔ)知識(shí),包括遺傳數(shù)據(jù)收集、研究設(shè)計(jì)和方法方面的細(xì)節(jié),以及糾正多重測(cè)試的必要性。接下來(lái),我們將在第8章介紹個(gè)體水平和遺傳標(biāo)記水平QC的類型。第4節(jié)簡(jiǎn)要介紹了GWAS元分析和進(jìn)一步的擴(kuò)展。最后,我們對(duì)NHGRI-EBI GWAS目錄,隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡(jiǎn)要?dú)v史。我們注意到GWAS樣本中缺乏各種類型的多樣性,例如缺乏祖先和人口多樣性,以及受試者在特定國(guó)家集中。最后,我們做了一個(gè)簡(jiǎn)短的總結(jié),并指出了未來(lái)的研究方向。

?

GWAS研究分析和元分析

數(shù)據(jù)分析流程

?

基因發(fā)現(xiàn)不僅是一項(xiàng)智力挑戰(zhàn),也是一項(xiàng)組織和后勤挑戰(zhàn)。由于GWA的質(zhì)量和成功傳統(tǒng)上取決于收集大量樣本,因此已成立了大型財(cái)團(tuán),進(jìn)行獨(dú)立的GWA,隨后由領(lǐng)導(dǎo)該項(xiàng)目的核心小組進(jìn)行元分析。圖4.1描述了GWAS階段,這可能是現(xiàn)代科學(xué)中最大類型的合作努力之一??紤]到所需的廣泛專業(yè)知識(shí)、需要成立的財(cái)團(tuán)以及長(zhǎng)期和耗時(shí)的投資。這一領(lǐng)域的新研究人員很少會(huì)啟動(dòng)自己的獨(dú)立GWA。然而,了解GWA的構(gòu)思過(guò)程是有用的。

首先從一般可行性分析開始,研究人員需要了解表型、迄今為止研究的內(nèi)容、測(cè)量和先前的遺傳力估計(jì)或其他GWAS結(jié)果(如果可用)。這一研究領(lǐng)域在總結(jié)現(xiàn)有結(jié)果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如,你可以參考對(duì)50多個(gè)雙生子研究中許多人類性狀遺傳力的綜合分析(見[4])。它還附帶了一個(gè)名為MaTCH(雙胞胎相關(guān)性和遺傳力的元分析)的web應(yīng)用程序,可通過(guò)http://match.ctglabnl/。還有其他網(wǎng)站,如SNPedia(https://www./index,php/遺傳力),該目錄列出了與特定研究相關(guān)的遺傳力估計(jì)值。Ben Neale的實(shí)驗(yàn)室還擁有一個(gè)令人難以置信的網(wǎng)站,用于檢測(cè)英國(guó)生物庫(kù)中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復(fù)雜性狀遺傳學(xué)虛擬實(shí)驗(yàn)室(CTG-VL)生成結(jié)果的可視化,包括曼哈頓圖和許多其他結(jié)果,用于GWAS后分析[5],ttps:// and http/atlas.ctglab.nI/。

下一步是隔離哪些數(shù)據(jù)源可能具有您感興趣的表型,如果適用,組建或聯(lián)系一個(gè)聯(lián)盟,或獲取現(xiàn)有或公開可用的數(shù)據(jù)(如英國(guó)生物銀行)。組建一個(gè)財(cái)團(tuán)需要花費(fèi)大量的時(shí)間和精力,包括經(jīng)常等待道德和準(zhǔn)入許可,在某些情況下還需要處理付款以使用數(shù)據(jù)。盡管英國(guó)生物銀行(約500000個(gè))等大型數(shù)據(jù)集最近已經(jīng)面世,但通常會(huì)形成大型聯(lián)合體,將多個(gè)數(shù)據(jù)集組合在一起,以產(chǎn)生盡可能大的樣本。在許多情況下,每個(gè)數(shù)據(jù)源的獨(dú)立分析師負(fù)責(zé)執(zhí)行

?

分析步驟:

  • 確定可行性,查閱文獻(xiàn),查看遺傳力,表型測(cè)定方法
  • 從實(shí)驗(yàn)搜集數(shù)據(jù),或者已有的數(shù)據(jù),確定合作方案
  • 撰寫數(shù)據(jù)分析方案
  • 數(shù)據(jù)存儲(chǔ),轉(zhuǎn)換,分析,描述分析,匯總結(jié)果
  • QC質(zhì)控,單獨(dú)分析和元分析
  • 重點(diǎn)查看顯著的位點(diǎn)
  • 注釋,查看結(jié)果
?

GWAS內(nèi)部,并將結(jié)果發(fā)送回聯(lián)合體領(lǐng)導(dǎo)人。這通常與數(shù)據(jù)的隱私和同意問(wèn)題有關(guān),如本書最后一部分第l4章所述,GWAS匯總統(tǒng)計(jì)的元分析因此是發(fā)現(xiàn)與表型相關(guān)的遺傳變異的最常用方法。由于常見等位基因的遺傳效應(yīng)很小,我們從第一章之前的討論中了解到,信號(hào)檢測(cè)需要更大的樣本量。由于單個(gè)GWASs的動(dòng)力不足,研究人員需要進(jìn)行元分析并合并多個(gè)數(shù)據(jù)源。

?

數(shù)據(jù)分析計(jì)劃

這部分,主要是如何收集數(shù)據(jù),包括設(shè)置問(wèn)卷調(diào)查注意事項(xiàng)。還應(yīng)該注意,應(yīng)該包括一些協(xié)變量。然后常用的數(shù)據(jù)質(zhì)控,使用的模型,有時(shí)候會(huì)考慮家系的作用。

?

如果您的目標(biāo)是收集大量樣本,請(qǐng)說(shuō)明如何選擇加入聯(lián)盟和關(guān)鍵截止日期。

然后經(jīng)常列出詳細(xì)的樣本納入標(biāo)準(zhǔn)。例如,在我們對(duì)人類生殖的研究中,我們還檢查了有史以來(lái)出生的兒童數(shù)量(NEB),只包括那些已經(jīng)到了生育期結(jié)束的兒童(女性至少45歲,男性55歲),并澄清說(shuō),我們還希望分析人員將從未生過(guò)孩子的個(gè)人包括在內(nèi)。這也是您指定任何祖先要求、相關(guān)協(xié)變量、基因分型率(>95?)和其他質(zhì)量控制的地方(另見第8章)。

基因型和插補(bǔ)信息,包括插補(bǔ)前需要應(yīng)用的任何推薦標(biāo)記過(guò)濾器,我們將很快討論。在前面提到的示例分析計(jì)劃中,SNP call rate>95,HWE>10-6,MAF>5%這些價(jià)值背后的邏輯將在第8章中詳細(xì)討論。

用于關(guān)聯(lián)測(cè)試的模型的ear規(guī)范。例如,在我們的研究中,我們要求對(duì)男性和女性的兩種表型(AFB、NEB)的回歸模型進(jìn)行估計(jì),然后合并。例如,一個(gè)方程是Y=m+SNP,β+Zy+e。許多研究還經(jīng)常包括基于家庭的數(shù)據(jù),其中82第4章應(yīng)提供明確的案例說(shuō)明,以考慮數(shù)據(jù)中的脆弱性結(jié)構(gòu)或選擇家庭成員。我們指定了線性回歸模型,其中包括幾個(gè)協(xié)變量(例如,控制人口分層、控制非線性效應(yīng)的出生隊(duì)列或任何研究特定協(xié)變量)。

為結(jié)果指定fle格式。例如,許多人經(jīng)常選擇費(fèi)用聯(lián)合體共享格式。!文件命名方案同樣重要,因?yàn)槟鷮⑹盏綌?shù)百個(gè)不同的文件。

數(shù)據(jù)交換和安全程序也很重要,最近在歐洲工作的許多人需要遵守GDPR(一般數(shù)據(jù)保護(hù)條例)(見第14章,道德)。

然后,還經(jīng)常包括薈萃分析的描述。這包括標(biāo)記排除篩選、基因組控制、顯著性閾值以及頂級(jí)SNP的報(bào)告方式。

每個(gè)參與的數(shù)據(jù)源(在這一研究領(lǐng)域通常稱為隊(duì)列)單獨(dú)運(yùn)行分析,或者可以授權(quán)訪問(wèn)數(shù)據(jù)。每個(gè)研究的匯總統(tǒng)計(jì)結(jié)果通常會(huì)與特定數(shù)據(jù)源數(shù)據(jù)的一些描述性信息一起上傳。然后將這些結(jié)果結(jié)合起來(lái)進(jìn)行薈萃分析。

?

元分析

?

元分析是對(duì)來(lái)自多個(gè)獨(dú)立研究的信息進(jìn)行統(tǒng)計(jì)綜合,從而提高功效,進(jìn)而降低假陽(yáng)性發(fā)現(xiàn)的風(fēng)險(xiǎn)【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議,其中包括,例如,在當(dāng)前聯(lián)合體發(fā)布之前,不要發(fā)布該表型的GWAS,GWAS薈萃分析使用所謂的匯總數(shù)據(jù),提供回歸系數(shù)、標(biāo)準(zhǔn)誤差、,依此類推,對(duì)于遵循預(yù)先指定的分析計(jì)劃的群體中的每個(gè)遺傳標(biāo)記。因此,它不是單個(gè)級(jí)別的數(shù)據(jù),而是匯總的匯總結(jié)果。我們2016年的生殖行為研究【6】。

例如,涉及一個(gè)元分析,它使用來(lái)自60多個(gè)不同數(shù)據(jù)源的匯總統(tǒng)計(jì)數(shù)據(jù)。在第8章中,我們描述了如何在個(gè)人層面上參與OC,然后再進(jìn)行GWAS(例如,去除等位基因頻率低的變體。插補(bǔ)質(zhì)量低,等位基因頻率與參考樣本有很大差異,或由其他地方未復(fù)制的特定研究驅(qū)動(dòng)的結(jié)果)。GWAS薈萃分析中一個(gè)重要且耗時(shí)的步驟是第二套質(zhì)量控制,它基本上是協(xié)調(diào)各研究的結(jié)果。盡管提供了統(tǒng)一的分析計(jì)劃,但此清理過(guò)程可能在初始項(xiàng)目中花費(fèi)的時(shí)間最長(zhǎng),因?yàn)榉治鋈藛T可能使用不同的軟件,或者結(jié)果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎(chǔ)上,為meta-OC過(guò)程提供了一個(gè)優(yōu)秀的協(xié)議。

?

統(tǒng)計(jì)推斷、方法和異質(zhì)性

表型數(shù)據(jù)

確定數(shù)據(jù)的類型,以及需要考慮的協(xié)變量

?

GWA研究的核心前提是對(duì)特定人群中的大量樣本同時(shí)進(jìn)行數(shù)百萬(wàn)個(gè)假設(shè)檢驗(yàn),或者換言之,對(duì)每個(gè)變量進(jìn)行一個(gè)假設(shè)檢驗(yàn)。每個(gè)遺傳關(guān)聯(lián)研究都采用統(tǒng)計(jì)推斷來(lái)確定和量化遺傳位點(diǎn)和表型之間的關(guān)聯(lián)強(qiáng)度。關(guān)聯(lián)方法的選擇通常取決于表型的性質(zhì),以及它是二分型(即二分型)還是定量型(即連續(xù)型),但考慮潛在的混雜因素(如gsex、年齡、出生隊(duì)列)也是常見的。

對(duì)于數(shù)量或連續(xù)特征(例如,初生年齡或體重指數(shù)),分析會(huì)在表型的連續(xù)分布范圍內(nèi)對(duì)個(gè)體進(jìn)行比較,通常使用線性回歸。在這里,我們比較了基于檢驗(yàn)統(tǒng)計(jì)量的分布與任何標(biāo)記無(wú)關(guān)聯(lián)的零假設(shè),并考慮了標(biāo)準(zhǔn)誤差。刪失數(shù)據(jù)生存模型的其他擴(kuò)展也越來(lái)越可能。對(duì)于二元或二元性狀,它通常使用邏輯回歸來(lái)比較高(病例)值和低(對(duì)照)值。與典型的logistic模型一樣,假設(shè)所研究性狀的logit變換與等位基因呈線性關(guān)系,但通常用優(yōu)勢(shì)比來(lái)解釋。

?

使用P-values和Z-scores

P-value一般用于單個(gè)數(shù)據(jù)的分析,Z-score可以用于元分析,表示結(jié)果。

?

第2章更詳細(xì)地闡述了這類研究的統(tǒng)計(jì)基礎(chǔ)。簡(jiǎn)而言之,目標(biāo)是對(duì)遺傳位點(diǎn)和正在研究的表型之間的每一個(gè)真實(shí)關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)顯著性估計(jì)。正如大多數(shù)讀者所知,正如前面第2章所討論的,統(tǒng)計(jì)顯著性通常由p值決定。p值估計(jì)獲得測(cè)試統(tǒng)計(jì)值的概率,該值與通過(guò)所選統(tǒng)計(jì)方法為潛在關(guān)聯(lián)估計(jì)的值一樣極端(即,在零下)。這并不是一個(gè)基因座與一個(gè)特征相聯(lián)系的可能性。當(dāng)我們進(jìn)行這種回歸時(shí),我們使用t檢驗(yàn)等檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)特定遺傳變異的β參數(shù)是否顯著不同于零。檢驗(yàn)統(tǒng)計(jì)量是用來(lái)衡量對(duì)無(wú)效假設(shè)支持程度的數(shù)據(jù)的數(shù)值總結(jié)。在零假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量可能具有已知的概率分布(例如,x’),或者估計(jì)其零分布?;叵胍幌拢瑹o(wú)效假設(shè)是對(duì)特定人群之間沒(méi)有顯著差異的假設(shè)的統(tǒng)計(jì)檢驗(yàn),在GWAS的情況下,是病例和對(duì)照之間的差異。任何觀察到的差異都?xì)w因于采樣或?qū)嶒?yàn)誤差。如果從遺傳位點(diǎn)產(chǎn)生的檢驗(yàn)統(tǒng)計(jì)量值與我們從無(wú)效假設(shè)中預(yù)期的值顯著偏離,則有證據(jù)表明存在替代性組間存在顯著差異(病例組與對(duì)照組)或與數(shù)量性狀存在顯著關(guān)系。

在薈萃分析中,p值的缺點(diǎn)是不能提供效應(yīng)大小的總體估計(jì),這一點(diǎn)已被廣泛討論。此外,無(wú)法評(píng)估數(shù)據(jù)集之間的異構(gòu)性。還使用了一個(gè)相關(guān)的統(tǒng)計(jì)數(shù)據(jù),即Z分?jǐn)?shù),它基于Z的平均值;值,即第i次研究的Z值,盡管p值和Z值高度相關(guān),但使用Z值的優(yōu)勢(shì)在于,它們考慮了影響的方向,并且您能夠引入權(quán)重(例如,如果您希望某項(xiàng)特定研究的權(quán)重更高或更低)。單核苷酸多態(tài)性被標(biāo)記為或被視為“點(diǎn)擊率”,以p值為衡量標(biāo)準(zhǔn)。

如前所述,商定的全基因組顯著閾值為p<5×10-8。

這對(duì)應(yīng)于Bonferroni校正,將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化,全基因組顯著性閾值可能因人群而異。在LD較低的人群中,如非洲祖先群體,應(yīng)使用更嚴(yán)格的閾值[9]。

?

矯正GWAS結(jié)果

常用的方法有:

  • Bonferroni correction,一般用0.05/N,或者1/N來(lái)確定P值
  • 置換檢驗(yàn)
  • FDR檢驗(yàn)

「第一種:Bonferroni矯正」

?

DNA微陣列和下一代測(cè)序使我們能夠檢測(cè)大量串聯(lián)基因組位點(diǎn)的相關(guān)性。GWAS結(jié)果中進(jìn)行比較的程度稱為多重測(cè)試問(wèn)題。這是兩種誤報(bào)(l類錯(cuò)誤)的可能性,如果多重比較的校正過(guò)于保守或功率不足,則會(huì)產(chǎn)生誤報(bào)(2類錯(cuò)誤)。我們測(cè)試了整個(gè)基因組中數(shù)百萬(wàn)個(gè)基因變體的關(guān)聯(lián),但只有很小一部分在全基因組顯著性水平上與表型相關(guān)。

問(wèn)題是,當(dāng)我們進(jìn)行這么多測(cè)試時(shí),我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強(qiáng)大關(guān)聯(lián)的危險(xiǎn)。在GWAS中,對(duì)每個(gè)遺傳位點(diǎn)和表型進(jìn)行統(tǒng)計(jì)檢驗(yàn),以產(chǎn)生檢驗(yàn)統(tǒng)計(jì)量和相關(guān)的p值。如果我們?nèi)?biāo)準(zhǔn)p值0.05.

即使給定的遺傳變異與我們的表型無(wú)關(guān),我們也有1/20的機(jī)會(huì)發(fā)現(xiàn)顯著的關(guān)聯(lián)。這就是所謂的類型1錯(cuò)誤或假陽(yáng)性。由于在GWAS中,我們實(shí)際上并行執(zhí)行了數(shù)百萬(wàn)次測(cè)試,如果我們采用標(biāo)準(zhǔn)的0.05顯著性閾值,我們很可能會(huì)獲得許多誤報(bào)。為了解決這個(gè)多重測(cè)試問(wèn)題,最常用和最直接的修正是Bonferroni修正。簡(jiǎn)單地說(shuō),我們將所選的顯著性閾值(p值)除以所執(zhí)行的測(cè)試數(shù)量。如果進(jìn)行了10次測(cè)試,我們只會(huì)聲明,如果p值小于0.005,結(jié)果才是顯著的。在基因組的情況下,我們正在測(cè)試100萬(wàn)個(gè)獨(dú)立的遺傳變異是否存在常見的序列變異,因此,Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計(jì)學(xué)中獨(dú)立性的基本假設(shè)有關(guān),或者說(shuō)你應(yīng)該從你的樣本中得到反映你會(huì)在人群中發(fā)現(xiàn)。

如果數(shù)據(jù)中存在最小的依賴性,而您違反了這一假設(shè),則會(huì)產(chǎn)生有偏差的結(jié)果。GWASs的一個(gè)統(tǒng)計(jì)問(wèn)題是,附近基因變體的基因型之間往往存在著很強(qiáng)的相關(guān)性?;蛘邠Q句話說(shuō),實(shí)際測(cè)試100萬(wàn)個(gè)遺傳變異實(shí)際上更像是測(cè)試70萬(wàn)到80萬(wàn)個(gè)不相關(guān)的遺傳變異。因此,在GWAS中,采用統(tǒng)計(jì)閾值,以p<5×10-8(即p<0.0000000-5)作為全基因組統(tǒng)計(jì)顯著性的標(biāo)準(zhǔn),而p<5×10-6通常用于表示“提示性命中”

?

「第二種:置換檢驗(yàn)」

?

有人認(rèn)為,Bonferroni校正過(guò)于保守,導(dǎo)致假陰性結(jié)果的比例增加,并假設(shè)每個(gè)基因變異都是獨(dú)立于其他變異進(jìn)行測(cè)試的,這是獨(dú)立的。雖然對(duì)替代方法的詳細(xì)解釋超出了本介紹性書籍的范圍,但還有其他方法可以糾正多次測(cè)試。基于排列的測(cè)試多次對(duì)表型進(jìn)行排列,然后每次重新計(jì)算統(tǒng)計(jì)測(cè)試,以產(chǎn)生可用于假設(shè)測(cè)試的經(jīng)驗(yàn)零分布。

將其視為標(biāo)簽的洗牌可能更為直觀。為了計(jì)算基于排列的p值,結(jié)果度量標(biāo)簽被隨機(jī)排列或洗牌多次(例如1000-1000000),這有效地消除了基因型和表型之間的任何真正關(guān)聯(lián)。然后對(duì)所有置換數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)測(cè)試。

這提供了無(wú)關(guān)聯(lián)零假設(shè)下檢驗(yàn)統(tǒng)計(jì)量和p值的經(jīng)驗(yàn)分布。然后將從觀察數(shù)據(jù)中獲得的原始檢驗(yàn)統(tǒng)計(jì)量或p值與p值的經(jīng)驗(yàn)分布進(jìn)行比較,以確定經(jīng)驗(yàn)調(diào)整的p值?;谥脫Q的測(cè)試是計(jì)算密集型的,尤其是當(dāng)需要許多置換時(shí),這對(duì)于精確計(jì)算非常小的p值是必要的[1]。

?

「第三種:FDR」

?

另一種技術(shù)是Benjamini-Hochberg錯(cuò)誤發(fā)現(xiàn)率(FDR),它比Bonferroni校正更保守。它控制所有信號(hào)中誤報(bào)的預(yù)期比例,F(xiàn)DR值低于固定閾值,并假設(shè)SNP是獨(dú)立的。該方法將誤報(bào)的預(yù)期比例降至最低,但不具有統(tǒng)計(jì)意義。一個(gè)限制是,F(xiàn)DR方法仍然假設(shè)SNP和p值是獨(dú)立的。

而是一個(gè)“標(biāo)簽”換句話說(shuō),它們是標(biāo)記,因?yàn)楦浇淖凅w實(shí)際上可能是驅(qū)動(dòng)關(guān)聯(lián)的因素。請(qǐng)記住,這是一項(xiàng)相關(guān)性研究,而不是因果關(guān)系研究,因此需要進(jìn)一步的生物學(xué)和下游工作,以了解標(biāo)記或其附近標(biāo)記的生物學(xué)功能。在第10章第10.2節(jié)中,我們提供了一個(gè)更詳細(xì)的案例研究,說(shuō)明如何使用FTO(通常被稱為“脂肪基因”)實(shí)現(xiàn)這一目標(biāo)。第8章描述了我們?cè)贕WAS期間進(jìn)行的各種其他診斷檢查,包括使用森林圖和分位數(shù)-分位數(shù)(Q-Q)圖按性別或數(shù)據(jù)源檢查結(jié)果的異質(zhì)性。第9章還詳細(xì)介紹了控制人口分層的機(jī)制,這是第3章前面介紹的一個(gè)概念。

?

曼哈頓圖

?

GWAS的主要結(jié)果通常顯示在所謂的曼哈頓圖中,圖4.2顯示了第一次分娩時(shí)的年齡特征。該圖是一個(gè)散點(diǎn)圖,繪制了p值(軸)的負(fù)對(duì)數(shù)(以10為底)和按染色體(x軸)位置排序的SNP關(guān)聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。

圖中所示的單核苷酸多態(tài)性是標(biāo)記,許多不會(huì)是實(shí)際的因果變異

?

二分類性狀和數(shù)量性狀

二分類一般用卡方檢驗(yàn),連續(xù)性狀用F檢驗(yàn)

?

為了評(píng)估二分性特征,卡方檢驗(yàn)通常用于測(cè)試病例和對(duì)照組之間分布頻率的差異。它計(jì)算病例和對(duì)照組的預(yù)期等位基因頻率,就好像SNP與表型無(wú)關(guān)一樣。然后以卡方統(tǒng)計(jì)量(X)的形式測(cè)量與該期望的偏差。假設(shè)SNP和性狀不相關(guān),則這些偏差偶然發(fā)生的概率的p值報(bào)告測(cè)試。如果p值低于定義的顯著性閾值(在控制多次測(cè)試后,稍后討論),則發(fā)現(xiàn)是顯著的。

然后,我們通常還會(huì)估計(jì)影響大小,這對(duì)于理解關(guān)聯(lián)的大小或強(qiáng)度很重要。為了計(jì)算二分性狀的效應(yīng)大小,可以使用不同的方法,如優(yōu)勢(shì)比(OR)。這是給定表型相關(guān)等位基因的表型概率除以給定非相關(guān)等位基因的表型概率。請(qǐng)注意,這不應(yīng)在個(gè)人層面上解釋為“個(gè)人風(fēng)險(xiǎn)”,而是與另一個(gè)基因組相比的風(fēng)險(xiǎn)計(jì)算。p值表示遺傳關(guān)聯(lián)是否符合我們選擇的統(tǒng)計(jì)顯著閾值,但不能用于比較遺傳關(guān)聯(lián)。這是因?yàn)閜值受到樣本量、統(tǒng)計(jì)檢驗(yàn)?zāi)芰σ约八芯筷P(guān)系之外的其他因素的強(qiáng)烈影響。正是出于這個(gè)原因,我們使用效應(yīng)大小來(lái)比較兩個(gè)SNP:為了正確評(píng)估關(guān)聯(lián)的強(qiáng)度和解釋,你需要知道遺傳關(guān)聯(lián)的p值和效應(yīng)大小估計(jì)。

?
?

為了評(píng)估數(shù)量性狀,如身高,我們通常使用線性回歸,目的是將性狀與每個(gè)感興趣的SNP相關(guān)聯(lián)。與之前的測(cè)試一樣,回歸模型以p值和β系數(shù)定義的效應(yīng)大小的形式產(chǎn)生顯著性度量。然后對(duì)每個(gè)單核苷酸多態(tài)性進(jìn)行回歸分析,以確定全基因組顯著性閾值(p≤5×10-8). 為了解釋數(shù)量性狀的效應(yīng)大小,我們使用β系數(shù),其中每個(gè)風(fēng)險(xiǎn)等位基因的出現(xiàn)對(duì)應(yīng)于數(shù)量性狀的增加,等于Beta系數(shù)。例如,假設(shè)我們將基因型AA、AG和GG的SNP與身高(厘米)相關(guān)聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因,β系數(shù)為0.5,則預(yù)測(cè)每個(gè)A等位基因?qū)€(gè)體身高的貢獻(xiàn)為0.5厘米。

效應(yīng)大小、樣本大小和統(tǒng)計(jì)能力是本分析中相互關(guān)聯(lián)的重要方面。雖然我們?cè)谶@里沒(méi)有詳細(xì)探討這一點(diǎn),但力量還取決于其他因素,如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測(cè),因?yàn)橹匾P(guān)聯(lián)的統(tǒng)計(jì)能力很低,需要非常大的樣本量?;蛘撸诓±龑?duì)照研究中,重要的不僅是樣本量,還有病例和對(duì)照的相對(duì)數(shù)量。相同數(shù)量的案例和控件是功率的最佳選擇。

?

固定效應(yīng)模型和隨機(jī)效應(yīng)模型

?

正如我們?cè)诘?章中所討論的,固定效應(yīng)模型依賴于假設(shè)每個(gè)風(fēng)險(xiǎn)等位基因在每個(gè)數(shù)據(jù)集中的真實(shí)效應(yīng)是相同的。雖然這個(gè)假設(shè)可能很脆弱,但與隨機(jī)效應(yīng)模型相比,這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒(méi)有詳細(xì)描述各種固定效應(yīng)模型,但包括反向方差加權(quán)和Cochran-Mantel-Haenszel。隨機(jī)效應(yīng)模型并不認(rèn)為所有研究在功能上都是等效的,因?yàn)樗鼈兊哪芰τ邢?,所以很少用于發(fā)現(xiàn)。當(dāng)這些模型的目的是試圖將觀察到的關(guān)聯(lián)推廣到人群之外,并估計(jì)相關(guān)變體的平均效應(yīng)大小以及不同人群的平均效應(yīng)大小,以便進(jìn)行預(yù)測(cè)時(shí),更常用這些模型。

?

權(quán)重、FDR和填充

?

當(dāng)多個(gè)數(shù)據(jù)源組合在一起時(shí),一些研究會(huì)有更多的數(shù)據(jù),因此在薈萃分析結(jié)果中應(yīng)該比較小的研究更重要或權(quán)重更大。最常用的最佳權(quán)重是逆方差加權(quán)(每個(gè)研究根據(jù)其平方標(biāo)準(zhǔn)誤差的倒數(shù)進(jìn)行加權(quán))。錯(cuò)誤發(fā)現(xiàn)率(FDR)是指對(duì)已發(fā)現(xiàn)但被視為誤報(bào)的關(guān)聯(lián)比例的估計(jì)。這里,我們計(jì)算所謂的Q值,這是聲稱關(guān)聯(lián)可能的最小FDR。正如我們的應(yīng)用章節(jié)所示,我們還測(cè)試了插補(bǔ)的可靠性。當(dāng)存在MAFs低的多態(tài)性時(shí),這可能是一個(gè)問(wèn)題,因?yàn)镸AFs<5的填充SNP被重新排除在分析之外。

?

數(shù)據(jù)來(lái)源方差異質(zhì)

?

一些表型可能難以測(cè)量或具有很高的測(cè)量變異性。在大型GWA研究中,通常需要協(xié)調(diào)不同的數(shù)據(jù)源并構(gòu)建一個(gè)可比較的表型。因?yàn)橐呀?jīng)收集了大多數(shù)表型。通常很難進(jìn)行完全協(xié)調(diào)的分析。例如,2018年的一項(xiàng)研究考察了受教育年限的遺傳基礎(chǔ),詳細(xì)考察了表型分類的差異如何影響結(jié)果【15】。

他們得出結(jié)論,在可能的情況下,最詳細(xì)的措施是最好的。然而,在協(xié)調(diào)多個(gè)數(shù)據(jù)集時(shí),許多GWA通常協(xié)調(diào)到最常見的分類,因此通常最不詳細(xì)的分類。

除第3章詳細(xì)討論的基于祖先的異質(zhì)性外,可能存在諸如出生隊(duì)列、國(guó)家或性別等不一致性。在第3章中,我們展示了即使在荷蘭或英國(guó)等相對(duì)較小的國(guó)家,也存在不同的人口分層模式。GWAS通常會(huì)結(jié)合來(lái)自多個(gè)國(guó)家和歷史時(shí)期的數(shù)據(jù),以獲得足夠大的樣本量。隱含的假設(shè)是,遺傳學(xué)對(duì)個(gè)體的影響在時(shí)間和地點(diǎn)上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項(xiàng)研究中,我們證明了事實(shí)并非如此,并且結(jié)合這些不同的數(shù)據(jù)集有可能掩蓋差異,尤其是行為表型【16】。在所謂的“大型分析”中,我們證明,當(dāng)數(shù)據(jù)合并時(shí),對(duì)教育和第一個(gè)孩子出生時(shí)間的遺傳影響中,約有40%是隱藏的或淡化的,這增加到75個(gè)或是出生過(guò)的孩子的數(shù)量。相反,我們發(fā)現(xiàn)與身高相關(guān)的遺傳變異在不同人群中似乎是相同的。性別差異也可能導(dǎo)致異質(zhì)性,這就是為什么一些分析,如與生殖或生殖行為相關(guān),分別檢查雌性、雄性和匯總結(jié)果【6,17】。顯然,這可以擴(kuò)展到考慮其他類型的異質(zhì)性,如年齡或生命歷程影響或社會(huì)經(jīng)濟(jì)地位。

?

基因型數(shù)據(jù)質(zhì)控

?

對(duì)遺傳數(shù)據(jù)進(jìn)行分析以進(jìn)行GWAS需要了解這種情況下的統(tǒng)計(jì)推斷,但也需要進(jìn)行大量質(zhì)量檢查,稱為質(zhì)量控制(QC)。QC是處理遺傳數(shù)據(jù)的核心方面之一。我們?cè)诘?章中討論了與GWASs相關(guān)的OC(見第8.5節(jié))。QC對(duì)于可靠的GWAS結(jié)果是必要的,因?yàn)樵蓟蛐蛿?shù)據(jù)本身就存在問(wèn)題(見方框4.2)。例如,您可能有很大比例的個(gè)體缺失數(shù)據(jù),或者個(gè)體中缺失基因型的比率很高,或者其他與低樣本質(zhì)量相關(guān)的問(wèn)題。正如我們?cè)诘?章中更詳細(xì)地概述的那樣,QC可分為個(gè)體的質(zhì)控和SNP的質(zhì)控

個(gè)體水平QC經(jīng)常檢查(1)DNA數(shù)據(jù)質(zhì)量差,(2)常染色體雜合度高或低,(3)性別信息不一致,(4)重復(fù)或相關(guān)個(gè)體,以及,(5)祖先差異。第二組質(zhì)量控制分析側(cè)重于基因型的數(shù)據(jù)質(zhì)量或我們?cè)诘?章中根據(jù)標(biāo)記OC討論的內(nèi)容。在這里,我們采取幾個(gè)步驟來(lái)消除可能在研究中引入偏見的變體,即:(1)排除低呼叫率SNP;(2) 去除等位基因頻率極低的SNP(罕見變體);(3) 識(shí)別和排除極端偏離哈迪-溫伯格平衡的變體;(4) 在病例對(duì)照研究中,排除單核苷酸多態(tài)性組間的極端差異通話率;(5)在處理插補(bǔ)SNP的情況下,排除插補(bǔ)質(zhì)量低的變異研究。

?

NHGRI-EBI GWAS目錄

什么是NHGRI-EBI GWAS目錄

?

該領(lǐng)域的新手通常想知道哪些表型已經(jīng)被研究過(guò),以及已經(jīng)鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄(以下簡(jiǎn)稱目錄),包括所有已發(fā)布GWAS的數(shù)據(jù),位于https://www./gwas/.它是由美國(guó)生產(chǎn)的。

國(guó)家人類基因組研究所(NHGRI)[19]與歐洲生物信息學(xué)研究所(EBI)[20]。要列入目錄,研究必須符合非常嚴(yán)格的標(biāo)準(zhǔn)(見www./gwas/docs/methods),包括基于陣列的gwas和對(duì)100000多個(gè)全基因組覆蓋的SNP的分析。目錄中報(bào)告的SNP性狀關(guān)聯(lián)是那些p值至少小于1×10-5的性狀關(guān)聯(lián)。目錄研究人員通過(guò)自動(dòng)PubMed搜索找到研究,然后手動(dòng)整理它們以進(jìn)行評(píng)估和納入。所有GWAS性狀都映射到實(shí)驗(yàn)因子本體(EFO)[21]中的術(shù)語(yǔ),這是一個(gè)用于分子生物學(xué)的變量本體,包括疾病、解剖學(xué)、細(xì)胞類型、細(xì)胞系、化合物和分析信息。例如,如果您搜索“心血管疾病”,目錄將提供該特定特征及其子特征的所有研究和關(guān)聯(lián)的結(jié)果和可視化結(jié)果。在這個(gè)例子中,潛臺(tái)詞可能是“心肌梗死”或“冠心病”?圖4.3顯示了NHGRI-EBI GWAS目錄,說(shuō)明了根據(jù)所有(人類)染色體的基因組位置報(bào)告的遺傳關(guān)聯(lián)。每一條線都鏈接到一個(gè)與p值閾值為p的性狀相關(guān)的基因座≤5×10-8,每個(gè)圓圈都有顏色編碼,以表示一個(gè)獨(dú)特的特征。他們根據(jù)17個(gè)主要特征類別進(jìn)行分組,如消化系統(tǒng)疾病、血液學(xué)測(cè)量、癌癥或藥物反應(yīng)。可以通過(guò)出版物、變體、性狀或基因搜索目錄,這些信息會(huì)隨著新出版物不斷更新。

?

GWAS歷史介紹

?

以下是幾篇關(guān)于GWASs的優(yōu)秀敘述性評(píng)論,描述了基本原理和科學(xué)結(jié)論,并強(qiáng)調(diào)了關(guān)鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】,由于需要合作整合多個(gè)數(shù)據(jù)源,該論文被譽(yù)為外交方面的杰作【23】。

如前所述,要進(jìn)行成功的GWAS,需要大樣本量以提供足夠的統(tǒng)計(jì)能力[25]。這意味著大多數(shù)GWASs發(fā)布到數(shù)據(jù)通常將來(lái)自多個(gè)數(shù)據(jù)源的單獨(dú)分析的匯總結(jié)果匯集到元分析中,以獲得盡可能大的樣本量。過(guò)去幾十年來(lái),技術(shù)、方法、理論、計(jì)算能力和資金的進(jìn)步極大地改變了GWAS的格局。

在我們之前的工作中,Mills和Rahal(2019)[3]對(duì)2005年至2018年10月的13年間的所有GWASs進(jìn)行了系統(tǒng)和計(jì)算審查。我們使用NHGRI-EBI GWAS目錄,并將其鏈接到PubMed等外部數(shù)據(jù)庫(kù)。重要的是要注意,除了創(chuàng)建此aliving數(shù)據(jù)庫(kù)之外,我們還包括了在公開的GitHub站點(diǎn)上使用的所有代碼(https://github.com/crahal/GWASReview).

換句話說(shuō),隨著每個(gè)目錄的更新,我們的數(shù)據(jù)庫(kù)以及這里描述的數(shù)字和數(shù)字將隨著時(shí)間的推移自動(dòng)更新。如圖4.4所示,隨著時(shí)間的推移,發(fā)布的GWASs數(shù)量、樣本量、關(guān)聯(lián)數(shù)量和研究的疾病都有顯著增長(zhǎng)。

在上面的面板中,我們看到隨著時(shí)間的推移,發(fā)表的研究數(shù)量大幅增加(根據(jù)樣本大小劃分)。在這里,隨著時(shí)間的推移,我們看到樣本量的驚人增長(zhǎng),在2018年末和2019年初發(fā)布的樣本有時(shí)包含100多萬(wàn)個(gè)個(gè)體。這些較大的研究主要?dú)w功于英國(guó)生物銀行(約50萬(wàn)個(gè)人)[26、27],以及參與這項(xiàng)研究的23andMe等大型直接面向消費(fèi)者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關(guān)聯(lián)數(shù)量與GWASs中使用的參與者數(shù)量之間的強(qiáng)正相關(guān)關(guān)系。右下角的面板顯示了獨(dú)特特征數(shù)量的增長(zhǎng)以及發(fā)布GWASs的期刊數(shù)量的增長(zhǎng)。截至2018年10月,我們發(fā)現(xiàn)發(fā)表了3639項(xiàng)研究,涵蓋了5849個(gè)獨(dú)特的研究材料(論文中歸因于性狀的標(biāo)識(shí)符),涉及3508個(gè)獨(dú)特的性狀,映射到2532個(gè)EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費(fèi)或神經(jīng)質(zhì)。每次研究的平均命中數(shù)為15.3,最強(qiáng)風(fēng)險(xiǎn)等位基因的平均p值為1.3729×10-6。55歲左右?報(bào)告的關(guān)聯(lián)符合p的標(biāo)準(zhǔn)閾值≤5×10-8.

?

GWAS多樣性的確定

?

或者是該領(lǐng)域的新研究人員,有必要注意到目前基因樣本缺乏多樣性。正如我們?cè)谇皫渍轮兴懻摰模茉囌咦嫦榷鄻有缘牟町惻c人口分層等技術(shù)問(wèn)題有關(guān)[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】,但也由于文化不信任和數(shù)據(jù)的社會(huì)濫用而拒絕參與研究【32,33】。圖4.5顯示,盡管GWASs的數(shù)量和性狀隨著時(shí)間的推移確實(shí)呈爆炸式增長(zhǎng),但它仍然主要存在于歐洲祖先群體中,非歐洲群體更常在復(fù)制階段進(jìn)行檢查。這意味著這些非歐洲人群經(jīng)常被用來(lái)測(cè)試歐洲祖先群體會(huì)在其他祖先群體中復(fù)制,因此通常不會(huì)作為這些群體中基本基因發(fā)現(xiàn)的基礎(chǔ)。

圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達(dá)95%的受試者到2017年的88%不等。特別是自201l年以來(lái),對(duì)亞洲人群的研究一直在強(qiáng)勁而穩(wěn)定地增長(zhǎng)(見方框4.3)。如Mills和Rahal(2019年,表2)[3]所述,這主要是日本、中國(guó)和韓國(guó)人口。隨著時(shí)間的推移,對(duì)非洲人口的研究最少,人們希望非洲基因組變異項(xiàng)目和其他促進(jìn)多樣性的項(xiàng)目將繼續(xù)增加和改變這些趨勢(shì)。

與GWA研究相關(guān)的多樣性幾乎只討論了與祖先相關(guān)的多樣性,但我們?cè)贕WA審查中還發(fā)現(xiàn),地理、環(huán)境、時(shí)間和人口(如年齡、性別)的多樣性明顯不足【3】。正如我們所注意到的,盡管目前世界人口中約76.2%居住在亞洲或非洲,但72%的基因發(fā)現(xiàn)來(lái)自僅居住在三個(gè)國(guó)家(美國(guó)、英國(guó)和冰島)的參與者。正如我們?cè)诒菊潞推渌胤剿U述的,需要做更多的工作來(lái)了解環(huán)境暴露和地理集中如何影響結(jié)果。例如,在美國(guó)、墨西哥和英國(guó),有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國(guó)家截然不同如日本、韓國(guó)、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊(duì)列、歷史時(shí)期和生命歷程階段缺乏時(shí)間和人口多樣性。GWASs中最常用的數(shù)據(jù)通常是年齡過(guò)大、社會(huì)經(jīng)濟(jì)地位較高、女性人數(shù)較多的數(shù)據(jù),而且通常還包括“健康志愿者”的選擇,如英國(guó)生物銀行[35]。

?

結(jié)論和未來(lái)的方向

?

自2005年第一次GWAS以來(lái),這一研究領(lǐng)域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄,其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領(lǐng)域是如何迅速發(fā)展的,這不僅是因?yàn)檠芯康难芯?、疾病和關(guān)聯(lián)的數(shù)量之多,還因?yàn)闃颖玖康牟粩鄶U(kuò)大。截至2019年,許多大型研究的綜合樣本超過(guò)100萬(wàn)例。然而,我們注意到,這種增長(zhǎng)甚至沒(méi)有跨越不同的祖先或地理群體,大多數(shù)研究仍在歐洲祖先群體中進(jìn)行。尤其是亞洲研究,隨著世界各地(如非洲)的新投資,進(jìn)一步增加了多樣性。一個(gè)新興而令人興奮的研究領(lǐng)域?qū)⑹欠菤W洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應(yīng)該注意到,組建這些大型財(cái)團(tuán)也可能是過(guò)去的事情。

隨著英國(guó)生物銀行(UK Biobank)等大型數(shù)據(jù)集和23andMe等直接面向消費(fèi)者的公司數(shù)量的不斷增加,收集許多小型數(shù)據(jù)隊(duì)列以生成大型樣本的情況似乎越來(lái)越不常見。

讀者還將對(duì)GWA研究所依據(jù)的方法學(xué)有一個(gè)基本的了解。雖然這仍然是一本介紹性的書,但我們希望您已經(jīng)初步了解了這種類型的研究是如何進(jìn)行的,GWASs中統(tǒng)計(jì)推斷的意義,以及為什么以及如何需要更正多次測(cè)試。

本書第8章還介紹了個(gè)人和遺傳標(biāo)記水平上質(zhì)量控制(QC)的重要性以及實(shí)際應(yīng)用。

我們對(duì)GWAS的簡(jiǎn)要?dú)v史表明,這是一個(gè)快速發(fā)展的研究領(lǐng)域。

正如我們?cè)陉P(guān)于倫理問(wèn)題和未來(lái)方向的第14章和第15章中所闡述的,GWAS也并非完全沒(méi)有爭(zhēng)議。有人擔(dān)心,長(zhǎng)長(zhǎng)的優(yōu)先“熱門”名單并沒(méi)有帶來(lái)一些人承諾的個(gè)性化藥物、新療法和風(fēng)險(xiǎn)預(yù)測(cè)工具。盡管超出了本書的支持范圍,但許多GWAS命中的生物學(xué)后續(xù)研究已經(jīng)找到了與已知生物途徑相關(guān)的變體,但也找到了其他未被臨床靶向的變體。

越來(lái)越多的研究不僅在研究常見的變異,也在研究罕見的變異。測(cè)序數(shù)據(jù)的進(jìn)一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領(lǐng)域和新方法。分析和合成GWAS數(shù)據(jù)的新方法也出現(xiàn)了,例如復(fù)雜性狀遺傳學(xué)虛擬實(shí)驗(yàn)室為GWAS后分析所做的工作(https:///updates).

?

練習(xí):

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-vAJKG9MP-1656835668257)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624102004288.png)]

本章節(jié)包括:

  • 了解全基因組關(guān)聯(lián)研究·
  • 掌握基因分型和測(cè)序陣列的基礎(chǔ)和局限性及其與連鎖不定性和填充的關(guān)系
  • 了解全基因組關(guān)聯(lián)研究研究設(shè)計(jì)、元分析和數(shù)據(jù)分析計(jì)劃
  • 了解全基因組關(guān)聯(lián)研究的統(tǒng)計(jì)推斷、方法和異質(zhì)性的基本方面
  • 掌握質(zhì)量控制的類型
  • 了解NHGRI-EBI GWAS目錄以概述全基因組關(guān)聯(lián)研究
  • 認(rèn)識(shí)到在祖先、地理、時(shí)間,迄今為止全基因組關(guān)聯(lián)研究的人口多樣性及其對(duì)研究的影響
  • 意識(shí)到了這一研究領(lǐng)域的未來(lái)方向

簡(jiǎn)介和背景

?

隨著基因分型技術(shù)的發(fā)展、成本的降低和先進(jìn)數(shù)據(jù)分析方法的發(fā)展,遺傳關(guān)聯(lián)研究的設(shè)計(jì)在過(guò)去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標(biāo)準(zhǔn)的,但早期的研究只關(guān)注有限數(shù)量的“候選”基因座。候選基因研究一詞是指這一領(lǐng)域的早期工作,其重點(diǎn)是預(yù)先確定的感興趣的基因座,這些基因座被認(rèn)為與所研究的性狀有關(guān)。正如我們?cè)陉P(guān)于基因-環(huán)境相互作用的第6章中詳細(xì)討論的那樣,許多早期候選基因研究由于多種原因存在問(wèn)題,主要是由于缺乏重復(fù),雖然我們的目標(biāo)是讓這一領(lǐng)域的新研究人員避免犯類似的錯(cuò)誤,但我們應(yīng)該注意到,一些候選基因研究仍然成功地用于各種非行為醫(yī)學(xué)表型。當(dāng)時(shí),許多性狀的極端多基因性和候選基因作為藥物靶點(diǎn)的失?。ɡ缫钟舭Y)讓許多人感到真正的驚訝。另一種選擇是全基因組關(guān)聯(lián)研究(GWAS),該研究同時(shí)測(cè)量了數(shù)百萬(wàn)個(gè)基因位點(diǎn)。

GWAS是目前用于確定單核苷酸多態(tài)性(SNP)與表型之間關(guān)聯(lián)的主要方法。正如我們稍后更詳細(xì)地討論的那樣,GWASs測(cè)試了數(shù)百萬(wàn)個(gè)單獨(dú)的回歸模型,以確定遺傳變異和表型之間的關(guān)聯(lián)。回顧第一章,表型可以是單基因性狀。

受單個(gè)基因內(nèi)變異的強(qiáng)烈影響。但許多是多基因復(fù)雜性狀,是多基因變異及其與行為和環(huán)境因素相互作用的結(jié)果。GWAS的結(jié)果顯示了每個(gè)單核苷酸多態(tài)性與特定性狀或表型的關(guān)聯(lián)。與候選基因研究相比,GWASs是無(wú)假設(shè)的,可以在所有基因型區(qū)域中尋找關(guān)聯(lián)。正如前面在第1章中所討論的,GWAS研究了將我們彼此區(qū)分開來(lái)的多態(tài)性。除了單卵(即同卵)雙胞胎外,這是0.1%的位點(diǎn)差異是我們與眾不同的原因。

由于許多性狀是復(fù)雜的,并且與多個(gè)遺傳位點(diǎn)(即多基因)相關(guān),GWAS通常識(shí)別出許多遺傳變異,每個(gè)變異對(duì)表型的影響很小。由于影響大小較小,需要非常大的數(shù)據(jù)源,GWAS發(fā)現(xiàn)通常會(huì)在多個(gè)數(shù)據(jù)源上進(jìn)行許多GWAS分析,然后合并到一個(gè)元分析中。在GWASs中識(shí)別的大多數(shù)變體不被認(rèn)為是生物學(xué)上的因果關(guān)系,而是由于連鎖不平衡(LD),可以識(shí)別包含一個(gè)或多個(gè)生物學(xué)功能變體的區(qū)域。到2019年初,已經(jīng)進(jìn)行了近4000次GWASs,從不可知的角度確定了數(shù)千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病,如乳腺癌、阿爾茨海默病和2型糖尿病,但也包括人體測(cè)量(身高、體重)和行為特征,如初生年齡或教育程度。

本章介紹了GWAS研究和基本概念。由于GWASs的結(jié)果通常是許多實(shí)際應(yīng)用的基礎(chǔ),因此本章對(duì)于第二部分的后續(xù)應(yīng)用章節(jié)至關(guān)重要,包括如何對(duì)遺傳數(shù)據(jù)進(jìn)行質(zhì)量控制(QC)(第8章)。在本章中,我們將介紹GWAS方法學(xué)的基礎(chǔ)知識(shí),包括遺傳數(shù)據(jù)收集、研究設(shè)計(jì)和方法方面的細(xì)節(jié),以及糾正多重測(cè)試的必要性。接下來(lái),我們將在第8章介紹個(gè)體水平和遺傳標(biāo)記水平QC的類型。第4節(jié)簡(jiǎn)要介紹了GWAS元分析和進(jìn)一步的擴(kuò)展。最后,我們對(duì)NHGRI-EBI GWAS目錄,隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡(jiǎn)要?dú)v史。我們注意到GWAS樣本中缺乏各種類型的多樣性,例如缺乏祖先和人口多樣性,以及受試者在特定國(guó)家集中。最后,我們做了一個(gè)簡(jiǎn)短的總結(jié),并指出了未來(lái)的研究方向。

?

GWAS研究分析和元分析

數(shù)據(jù)分析流程

?

基因發(fā)現(xiàn)不僅是一項(xiàng)智力挑戰(zhàn),也是一項(xiàng)組織和后勤挑戰(zhàn)。由于GWA的質(zhì)量和成功傳統(tǒng)上取決于收集大量樣本,因此已成立了大型財(cái)團(tuán),進(jìn)行獨(dú)立的GWA,隨后由領(lǐng)導(dǎo)該項(xiàng)目的核心小組進(jìn)行元分析。圖4.1描述了GWAS階段,這可能是現(xiàn)代科學(xué)中最大類型的合作努力之一??紤]到所需的廣泛專業(yè)知識(shí)、需要成立的財(cái)團(tuán)以及長(zhǎng)期和耗時(shí)的投資。這一領(lǐng)域的新研究人員很少會(huì)啟動(dòng)自己的獨(dú)立GWA。然而,了解GWA的構(gòu)思過(guò)程是有用的。

首先從一般可行性分析開始,研究人員需要了解表型、迄今為止研究的內(nèi)容、測(cè)量和先前的遺傳力估計(jì)或其他GWAS結(jié)果(如果可用)。這一研究領(lǐng)域在總結(jié)現(xiàn)有結(jié)果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如,你可以參考對(duì)50多個(gè)雙生子研究中許多人類性狀遺傳力的綜合分析(見[4])。它還附帶了一個(gè)名為MaTCH(雙胞胎相關(guān)性和遺傳力的元分析)的web應(yīng)用程序,可通過(guò)http://match.ctglabnl/。還有其他網(wǎng)站,如SNPedia(https://www./index,php/遺傳力),該目錄列出了與特定研究相關(guān)的遺傳力估計(jì)值。Ben Neale的實(shí)驗(yàn)室還擁有一個(gè)令人難以置信的網(wǎng)站,用于檢測(cè)英國(guó)生物庫(kù)中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復(fù)雜性狀遺傳學(xué)虛擬實(shí)驗(yàn)室(CTG-VL)生成結(jié)果的可視化,包括曼哈頓圖和許多其他結(jié)果,用于GWAS后分析[5],ttps:// and http/atlas.ctglab.nI/。

下一步是隔離哪些數(shù)據(jù)源可能具有您感興趣的表型,如果適用,組建或聯(lián)系一個(gè)聯(lián)盟,或獲取現(xiàn)有或公開可用的數(shù)據(jù)(如英國(guó)生物銀行)。組建一個(gè)財(cái)團(tuán)需要花費(fèi)大量的時(shí)間和精力,包括經(jīng)常等待道德和準(zhǔn)入許可,在某些情況下還需要處理付款以使用數(shù)據(jù)。盡管英國(guó)生物銀行(約500000個(gè))等大型數(shù)據(jù)集最近已經(jīng)面世,但通常會(huì)形成大型聯(lián)合體,將多個(gè)數(shù)據(jù)集組合在一起,以產(chǎn)生盡可能大的樣本。在許多情況下,每個(gè)數(shù)據(jù)源的獨(dú)立分析師負(fù)責(zé)執(zhí)行

?

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-R98ZEGiC-1656835655879)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624094239840.png)]

分析步驟:

  • 確定可行性,查閱文獻(xiàn),查看遺傳力,表型測(cè)定方法
  • 從實(shí)驗(yàn)搜集數(shù)據(jù),或者已有的數(shù)據(jù),確定合作方案
  • 撰寫數(shù)據(jù)分析方案
  • 數(shù)據(jù)存儲(chǔ),轉(zhuǎn)換,分析,描述分析,匯總結(jié)果
  • QC質(zhì)控,單獨(dú)分析和元分析
  • 重點(diǎn)查看顯著的位點(diǎn)
  • 注釋,查看結(jié)果
?

GWAS內(nèi)部,并將結(jié)果發(fā)送回聯(lián)合體領(lǐng)導(dǎo)人。這通常與數(shù)據(jù)的隱私和同意問(wèn)題有關(guān),如本書最后一部分第l4章所述,GWAS匯總統(tǒng)計(jì)的元分析因此是發(fā)現(xiàn)與表型相關(guān)的遺傳變異的最常用方法。由于常見等位基因的遺傳效應(yīng)很小,我們從第一章之前的討論中了解到,信號(hào)檢測(cè)需要更大的樣本量。由于單個(gè)GWASs的動(dòng)力不足,研究人員需要進(jìn)行元分析并合并多個(gè)數(shù)據(jù)源。

?

數(shù)據(jù)分析計(jì)劃

這部分,主要是如何收集數(shù)據(jù),包括設(shè)置問(wèn)卷調(diào)查注意事項(xiàng)。還應(yīng)該注意,應(yīng)該包括一些協(xié)變量。然后常用的數(shù)據(jù)質(zhì)控,使用的模型,有時(shí)候會(huì)考慮家系的作用。

?

如果您的目標(biāo)是收集大量樣本,請(qǐng)說(shuō)明如何選擇加入聯(lián)盟和關(guān)鍵截止日期。

然后經(jīng)常列出詳細(xì)的樣本納入標(biāo)準(zhǔn)。例如,在我們對(duì)人類生殖的研究中,我們還檢查了有史以來(lái)出生的兒童數(shù)量(NEB),只包括那些已經(jīng)到了生育期結(jié)束的兒童(女性至少45歲,男性55歲),并澄清說(shuō),我們還希望分析人員將從未生過(guò)孩子的個(gè)人包括在內(nèi)。這也是您指定任何祖先要求、相關(guān)協(xié)變量、基因分型率(>95?)和其他質(zhì)量控制的地方(另見第8章)。

基因型和插補(bǔ)信息,包括插補(bǔ)前需要應(yīng)用的任何推薦標(biāo)記過(guò)濾器,我們將很快討論。在前面提到的示例分析計(jì)劃中,SNP call rate>95,HWE>10-6,MAF>5%這些價(jià)值背后的邏輯將在第8章中詳細(xì)討論。

用于關(guān)聯(lián)測(cè)試的模型的ear規(guī)范。例如,在我們的研究中,我們要求對(duì)男性和女性的兩種表型(AFB、NEB)的回歸模型進(jìn)行估計(jì),然后合并。例如,一個(gè)方程是Y=m+SNP,β+Zy+e。許多研究還經(jīng)常包括基于家庭的數(shù)據(jù),其中82第4章應(yīng)提供明確的案例說(shuō)明,以考慮數(shù)據(jù)中的脆弱性結(jié)構(gòu)或選擇家庭成員。我們指定了線性回歸模型,其中包括幾個(gè)協(xié)變量(例如,控制人口分層、控制非線性效應(yīng)的出生隊(duì)列或任何研究特定協(xié)變量)。

為結(jié)果指定fle格式。例如,許多人經(jīng)常選擇費(fèi)用聯(lián)合體共享格式。!文件命名方案同樣重要,因?yàn)槟鷮⑹盏綌?shù)百個(gè)不同的文件。

數(shù)據(jù)交換和安全程序也很重要,最近在歐洲工作的許多人需要遵守GDPR(一般數(shù)據(jù)保護(hù)條例)(見第14章,道德)。

然后,還經(jīng)常包括薈萃分析的描述。這包括標(biāo)記排除篩選、基因組控制、顯著性閾值以及頂級(jí)SNP的報(bào)告方式。

每個(gè)參與的數(shù)據(jù)源(在這一研究領(lǐng)域通常稱為隊(duì)列)單獨(dú)運(yùn)行分析,或者可以授權(quán)訪問(wèn)數(shù)據(jù)。每個(gè)研究的匯總統(tǒng)計(jì)結(jié)果通常會(huì)與特定數(shù)據(jù)源數(shù)據(jù)的一些描述性信息一起上傳。然后將這些結(jié)果結(jié)合起來(lái)進(jìn)行薈萃分析。

?

元分析

?

元分析是對(duì)來(lái)自多個(gè)獨(dú)立研究的信息進(jìn)行統(tǒng)計(jì)綜合,從而提高功效,進(jìn)而降低假陽(yáng)性發(fā)現(xiàn)的風(fēng)險(xiǎn)【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議,其中包括,例如,在當(dāng)前聯(lián)合體發(fā)布之前,不要發(fā)布該表型的GWAS,GWAS薈萃分析使用所謂的匯總數(shù)據(jù),提供回歸系數(shù)、標(biāo)準(zhǔn)誤差、,依此類推,對(duì)于遵循預(yù)先指定的分析計(jì)劃的群體中的每個(gè)遺傳標(biāo)記。因此,它不是單個(gè)級(jí)別的數(shù)據(jù),而是匯總的匯總結(jié)果。我們2016年的生殖行為研究【6】。

例如,涉及一個(gè)元分析,它使用來(lái)自60多個(gè)不同數(shù)據(jù)源的匯總統(tǒng)計(jì)數(shù)據(jù)。在第8章中,我們描述了如何在個(gè)人層面上參與OC,然后再進(jìn)行GWAS(例如,去除等位基因頻率低的變體。插補(bǔ)質(zhì)量低,等位基因頻率與參考樣本有很大差異,或由其他地方未復(fù)制的特定研究驅(qū)動(dòng)的結(jié)果)。GWAS薈萃分析中一個(gè)重要且耗時(shí)的步驟是第二套質(zhì)量控制,它基本上是協(xié)調(diào)各研究的結(jié)果。盡管提供了統(tǒng)一的分析計(jì)劃,但此清理過(guò)程可能在初始項(xiàng)目中花費(fèi)的時(shí)間最長(zhǎng),因?yàn)榉治鋈藛T可能使用不同的軟件,或者結(jié)果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎(chǔ)上,為meta-OC過(guò)程提供了一個(gè)優(yōu)秀的協(xié)議。

?

統(tǒng)計(jì)推斷、方法和異質(zhì)性

表型數(shù)據(jù)

確定數(shù)據(jù)的類型,以及需要考慮的協(xié)變量

?

GWA研究的核心前提是對(duì)特定人群中的大量樣本同時(shí)進(jìn)行數(shù)百萬(wàn)個(gè)假設(shè)檢驗(yàn),或者換言之,對(duì)每個(gè)變量進(jìn)行一個(gè)假設(shè)檢驗(yàn)。每個(gè)遺傳關(guān)聯(lián)研究都采用統(tǒng)計(jì)推斷來(lái)確定和量化遺傳位點(diǎn)和表型之間的關(guān)聯(lián)強(qiáng)度。關(guān)聯(lián)方法的選擇通常取決于表型的性質(zhì),以及它是二分型(即二分型)還是定量型(即連續(xù)型),但考慮潛在的混雜因素(如gsex、年齡、出生隊(duì)列)也是常見的。

對(duì)于數(shù)量或連續(xù)特征(例如,初生年齡或體重指數(shù)),分析會(huì)在表型的連續(xù)分布范圍內(nèi)對(duì)個(gè)體進(jìn)行比較,通常使用線性回歸。在這里,我們比較了基于檢驗(yàn)統(tǒng)計(jì)量的分布與任何標(biāo)記無(wú)關(guān)聯(lián)的零假設(shè),并考慮了標(biāo)準(zhǔn)誤差。刪失數(shù)據(jù)生存模型的其他擴(kuò)展也越來(lái)越可能。對(duì)于二元或二元性狀,它通常使用邏輯回歸來(lái)比較高(病例)值和低(對(duì)照)值。與典型的logistic模型一樣,假設(shè)所研究性狀的logit變換與等位基因呈線性關(guān)系,但通常用優(yōu)勢(shì)比來(lái)解釋。

?

使用P-values和Z-scores

P-value一般用于單個(gè)數(shù)據(jù)的分析,Z-score可以用于元分析,表示結(jié)果。

?

第2章更詳細(xì)地闡述了這類研究的統(tǒng)計(jì)基礎(chǔ)。簡(jiǎn)而言之,目標(biāo)是對(duì)遺傳位點(diǎn)和正在研究的表型之間的每一個(gè)真實(shí)關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)顯著性估計(jì)。正如大多數(shù)讀者所知,正如前面第2章所討論的,統(tǒng)計(jì)顯著性通常由p值決定。p值估計(jì)獲得測(cè)試統(tǒng)計(jì)值的概率,該值與通過(guò)所選統(tǒng)計(jì)方法為潛在關(guān)聯(lián)估計(jì)的值一樣極端(即,在零下)。這并不是一個(gè)基因座與一個(gè)特征相聯(lián)系的可能性。當(dāng)我們進(jìn)行這種回歸時(shí),我們使用t檢驗(yàn)等檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)特定遺傳變異的β參數(shù)是否顯著不同于零。檢驗(yàn)統(tǒng)計(jì)量是用來(lái)衡量對(duì)無(wú)效假設(shè)支持程度的數(shù)據(jù)的數(shù)值總結(jié)。在零假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量可能具有已知的概率分布(例如,x’),或者估計(jì)其零分布?;叵胍幌?,無(wú)效假設(shè)是對(duì)特定人群之間沒(méi)有顯著差異的假設(shè)的統(tǒng)計(jì)檢驗(yàn),在GWAS的情況下,是病例和對(duì)照之間的差異。任何觀察到的差異都?xì)w因于采樣或?qū)嶒?yàn)誤差。如果從遺傳位點(diǎn)產(chǎn)生的檢驗(yàn)統(tǒng)計(jì)量值與我們從無(wú)效假設(shè)中預(yù)期的值顯著偏離,則有證據(jù)表明存在替代性組間存在顯著差異(病例組與對(duì)照組)或與數(shù)量性狀存在顯著關(guān)系。

在薈萃分析中,p值的缺點(diǎn)是不能提供效應(yīng)大小的總體估計(jì),這一點(diǎn)已被廣泛討論。此外,無(wú)法評(píng)估數(shù)據(jù)集之間的異構(gòu)性。還使用了一個(gè)相關(guān)的統(tǒng)計(jì)數(shù)據(jù),即Z分?jǐn)?shù),它基于Z的平均值;值,即第i次研究的Z值,盡管p值和Z值高度相關(guān),但使用Z值的優(yōu)勢(shì)在于,它們考慮了影響的方向,并且您能夠引入權(quán)重(例如,如果您希望某項(xiàng)特定研究的權(quán)重更高或更低)。單核苷酸多態(tài)性被標(biāo)記為或被視為“點(diǎn)擊率”,以p值為衡量標(biāo)準(zhǔn)。

如前所述,商定的全基因組顯著閾值為p<5×10-8。

這對(duì)應(yīng)于Bonferroni校正,將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化,全基因組顯著性閾值可能因人群而異。在LD較低的人群中,如非洲祖先群體,應(yīng)使用更嚴(yán)格的閾值[9]。

?

矯正GWAS結(jié)果

常用的方法有:

  • Bonferroni correction,一般用0.05/N,或者1/N來(lái)確定P值
  • 置換檢驗(yàn)
  • FDR檢驗(yàn)

「第一種:Bonferroni矯正」

?

DNA微陣列和下一代測(cè)序使我們能夠檢測(cè)大量串聯(lián)基因組位點(diǎn)的相關(guān)性。GWAS結(jié)果中進(jìn)行比較的程度稱為多重測(cè)試問(wèn)題。這是兩種誤報(bào)(l類錯(cuò)誤)的可能性,如果多重比較的校正過(guò)于保守或功率不足,則會(huì)產(chǎn)生誤報(bào)(2類錯(cuò)誤)。我們測(cè)試了整個(gè)基因組中數(shù)百萬(wàn)個(gè)基因變體的關(guān)聯(lián),但只有很小一部分在全基因組顯著性水平上與表型相關(guān)。

問(wèn)題是,當(dāng)我們進(jìn)行這么多測(cè)試時(shí),我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強(qiáng)大關(guān)聯(lián)的危險(xiǎn)。在GWAS中,對(duì)每個(gè)遺傳位點(diǎn)和表型進(jìn)行統(tǒng)計(jì)檢驗(yàn),以產(chǎn)生檢驗(yàn)統(tǒng)計(jì)量和相關(guān)的p值。如果我們?nèi)?biāo)準(zhǔn)p值0.05.

即使給定的遺傳變異與我們的表型無(wú)關(guān),我們也有1/20的機(jī)會(huì)發(fā)現(xiàn)顯著的關(guān)聯(lián)。這就是所謂的類型1錯(cuò)誤或假陽(yáng)性。由于在GWAS中,我們實(shí)際上并行執(zhí)行了數(shù)百萬(wàn)次測(cè)試,如果我們采用標(biāo)準(zhǔn)的0.05顯著性閾值,我們很可能會(huì)獲得許多誤報(bào)。為了解決這個(gè)多重測(cè)試問(wèn)題,最常用和最直接的修正是Bonferroni修正。簡(jiǎn)單地說(shuō),我們將所選的顯著性閾值(p值)除以所執(zhí)行的測(cè)試數(shù)量。如果進(jìn)行了10次測(cè)試,我們只會(huì)聲明,如果p值小于0.005,結(jié)果才是顯著的。在基因組的情況下,我們正在測(cè)試100萬(wàn)個(gè)獨(dú)立的遺傳變異是否存在常見的序列變異,因此,Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計(jì)學(xué)中獨(dú)立性的基本假設(shè)有關(guān),或者說(shuō)你應(yīng)該從你的樣本中得到反映你會(huì)在人群中發(fā)現(xiàn)。

如果數(shù)據(jù)中存在最小的依賴性,而您違反了這一假設(shè),則會(huì)產(chǎn)生有偏差的結(jié)果。GWASs的一個(gè)統(tǒng)計(jì)問(wèn)題是,附近基因變體的基因型之間往往存在著很強(qiáng)的相關(guān)性?;蛘邠Q句話說(shuō),實(shí)際測(cè)試100萬(wàn)個(gè)遺傳變異實(shí)際上更像是測(cè)試70萬(wàn)到80萬(wàn)個(gè)不相關(guān)的遺傳變異。因此,在GWAS中,采用統(tǒng)計(jì)閾值,以p<5×10-8(即p<0.0000000-5)作為全基因組統(tǒng)計(jì)顯著性的標(biāo)準(zhǔn),而p<5×10-6通常用于表示“提示性命中”

?

「第二種:置換檢驗(yàn)」

?

有人認(rèn)為,Bonferroni校正過(guò)于保守,導(dǎo)致假陰性結(jié)果的比例增加,并假設(shè)每個(gè)基因變異都是獨(dú)立于其他變異進(jìn)行測(cè)試的,這是獨(dú)立的。雖然對(duì)替代方法的詳細(xì)解釋超出了本介紹性書籍的范圍,但還有其他方法可以糾正多次測(cè)試。基于排列的測(cè)試多次對(duì)表型進(jìn)行排列,然后每次重新計(jì)算統(tǒng)計(jì)測(cè)試,以產(chǎn)生可用于假設(shè)測(cè)試的經(jīng)驗(yàn)零分布。

將其視為標(biāo)簽的洗牌可能更為直觀。為了計(jì)算基于排列的p值,結(jié)果度量標(biāo)簽被隨機(jī)排列或洗牌多次(例如1000-1000000),這有效地消除了基因型和表型之間的任何真正關(guān)聯(lián)。然后對(duì)所有置換數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)測(cè)試。

這提供了無(wú)關(guān)聯(lián)零假設(shè)下檢驗(yàn)統(tǒng)計(jì)量和p值的經(jīng)驗(yàn)分布。然后將從觀察數(shù)據(jù)中獲得的原始檢驗(yàn)統(tǒng)計(jì)量或p值與p值的經(jīng)驗(yàn)分布進(jìn)行比較,以確定經(jīng)驗(yàn)調(diào)整的p值?;谥脫Q的測(cè)試是計(jì)算密集型的,尤其是當(dāng)需要許多置換時(shí),這對(duì)于精確計(jì)算非常小的p值是必要的[1]。

?

「第三種:FDR」

?

另一種技術(shù)是Benjamini-Hochberg錯(cuò)誤發(fā)現(xiàn)率(FDR),它比Bonferroni校正更保守。它控制所有信號(hào)中誤報(bào)的預(yù)期比例,F(xiàn)DR值低于固定閾值,并假設(shè)SNP是獨(dú)立的。該方法將誤報(bào)的預(yù)期比例降至最低,但不具有統(tǒng)計(jì)意義。一個(gè)限制是,F(xiàn)DR方法仍然假設(shè)SNP和p值是獨(dú)立的。

而是一個(gè)“標(biāo)簽”換句話說(shuō),它們是標(biāo)記,因?yàn)楦浇淖凅w實(shí)際上可能是驅(qū)動(dòng)關(guān)聯(lián)的因素。請(qǐng)記住,這是一項(xiàng)相關(guān)性研究,而不是因果關(guān)系研究,因此需要進(jìn)一步的生物學(xué)和下游工作,以了解標(biāo)記或其附近標(biāo)記的生物學(xué)功能。在第10章第10.2節(jié)中,我們提供了一個(gè)更詳細(xì)的案例研究,說(shuō)明如何使用FTO(通常被稱為“脂肪基因”)實(shí)現(xiàn)這一目標(biāo)。第8章描述了我們?cè)贕WAS期間進(jìn)行的各種其他診斷檢查,包括使用森林圖和分位數(shù)-分位數(shù)(Q-Q)圖按性別或數(shù)據(jù)源檢查結(jié)果的異質(zhì)性。第9章還詳細(xì)介紹了控制人口分層的機(jī)制,這是第3章前面介紹的一個(gè)概念。

?

曼哈頓圖

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-U8GGy3fe-1656835655880)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624100503067.png)]

?

GWAS的主要結(jié)果通常顯示在所謂的曼哈頓圖中,圖4.2顯示了第一次分娩時(shí)的年齡特征。該圖是一個(gè)散點(diǎn)圖,繪制了p值(軸)的負(fù)對(duì)數(shù)(以10為底)和按染色體(x軸)位置排序的SNP關(guān)聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。

圖中所示的單核苷酸多態(tài)性是標(biāo)記,許多不會(huì)是實(shí)際的因果變異

?

二分類性狀和數(shù)量性狀

二分類一般用卡方檢驗(yàn),連續(xù)性狀用F檢驗(yàn)

?

為了評(píng)估二分性特征,卡方檢驗(yàn)通常用于測(cè)試病例和對(duì)照組之間分布頻率的差異。它計(jì)算病例和對(duì)照組的預(yù)期等位基因頻率,就好像SNP與表型無(wú)關(guān)一樣。然后以卡方統(tǒng)計(jì)量(X)的形式測(cè)量與該期望的偏差。假設(shè)SNP和性狀不相關(guān),則這些偏差偶然發(fā)生的概率的p值報(bào)告測(cè)試。如果p值低于定義的顯著性閾值(在控制多次測(cè)試后,稍后討論),則發(fā)現(xiàn)是顯著的。

然后,我們通常還會(huì)估計(jì)影響大小,這對(duì)于理解關(guān)聯(lián)的大小或強(qiáng)度很重要。為了計(jì)算二分性狀的效應(yīng)大小,可以使用不同的方法,如優(yōu)勢(shì)比(OR)。這是給定表型相關(guān)等位基因的表型概率除以給定非相關(guān)等位基因的表型概率。請(qǐng)注意,這不應(yīng)在個(gè)人層面上解釋為“個(gè)人風(fēng)險(xiǎn)”,而是與另一個(gè)基因組相比的風(fēng)險(xiǎn)計(jì)算。p值表示遺傳關(guān)聯(lián)是否符合我們選擇的統(tǒng)計(jì)顯著閾值,但不能用于比較遺傳關(guān)聯(lián)。這是因?yàn)閜值受到樣本量、統(tǒng)計(jì)檢驗(yàn)?zāi)芰σ约八芯筷P(guān)系之外的其他因素的強(qiáng)烈影響。正是出于這個(gè)原因,我們使用效應(yīng)大小來(lái)比較兩個(gè)SNP:為了正確評(píng)估關(guān)聯(lián)的強(qiáng)度和解釋,你需要知道遺傳關(guān)聯(lián)的p值和效應(yīng)大小估計(jì)。

?
?

為了評(píng)估數(shù)量性狀,如身高,我們通常使用線性回歸,目的是將性狀與每個(gè)感興趣的SNP相關(guān)聯(lián)。與之前的測(cè)試一樣,回歸模型以p值和β系數(shù)定義的效應(yīng)大小的形式產(chǎn)生顯著性度量。然后對(duì)每個(gè)單核苷酸多態(tài)性進(jìn)行回歸分析,以確定全基因組顯著性閾值(p≤5×10-8). 為了解釋數(shù)量性狀的效應(yīng)大小,我們使用β系數(shù),其中每個(gè)風(fēng)險(xiǎn)等位基因的出現(xiàn)對(duì)應(yīng)于數(shù)量性狀的增加,等于Beta系數(shù)。例如,假設(shè)我們將基因型AA、AG和GG的SNP與身高(厘米)相關(guān)聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因,β系數(shù)為0.5,則預(yù)測(cè)每個(gè)A等位基因?qū)€(gè)體身高的貢獻(xiàn)為0.5厘米。

效應(yīng)大小、樣本大小和統(tǒng)計(jì)能力是本分析中相互關(guān)聯(lián)的重要方面。雖然我們?cè)谶@里沒(méi)有詳細(xì)探討這一點(diǎn),但力量還取決于其他因素,如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測(cè),因?yàn)橹匾P(guān)聯(lián)的統(tǒng)計(jì)能力很低,需要非常大的樣本量。或者,在病例對(duì)照研究中,重要的不僅是樣本量,還有病例和對(duì)照的相對(duì)數(shù)量。相同數(shù)量的案例和控件是功率的最佳選擇。

?

固定效應(yīng)模型和隨機(jī)效應(yīng)模型

?

正如我們?cè)诘?章中所討論的,固定效應(yīng)模型依賴于假設(shè)每個(gè)風(fēng)險(xiǎn)等位基因在每個(gè)數(shù)據(jù)集中的真實(shí)效應(yīng)是相同的。雖然這個(gè)假設(shè)可能很脆弱,但與隨機(jī)效應(yīng)模型相比,這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒(méi)有詳細(xì)描述各種固定效應(yīng)模型,但包括反向方差加權(quán)和Cochran-Mantel-Haenszel。隨機(jī)效應(yīng)模型并不認(rèn)為所有研究在功能上都是等效的,因?yàn)樗鼈兊哪芰τ邢?,所以很少用于發(fā)現(xiàn)。當(dāng)這些模型的目的是試圖將觀察到的關(guān)聯(lián)推廣到人群之外,并估計(jì)相關(guān)變體的平均效應(yīng)大小以及不同人群的平均效應(yīng)大小,以便進(jìn)行預(yù)測(cè)時(shí),更常用這些模型。

?

權(quán)重、FDR和填充

?

當(dāng)多個(gè)數(shù)據(jù)源組合在一起時(shí),一些研究會(huì)有更多的數(shù)據(jù),因此在薈萃分析結(jié)果中應(yīng)該比較小的研究更重要或權(quán)重更大。最常用的最佳權(quán)重是逆方差加權(quán)(每個(gè)研究根據(jù)其平方標(biāo)準(zhǔn)誤差的倒數(shù)進(jìn)行加權(quán))。錯(cuò)誤發(fā)現(xiàn)率(FDR)是指對(duì)已發(fā)現(xiàn)但被視為誤報(bào)的關(guān)聯(lián)比例的估計(jì)。這里,我們計(jì)算所謂的Q值,這是聲稱關(guān)聯(lián)可能的最小FDR。正如我們的應(yīng)用章節(jié)所示,我們還測(cè)試了插補(bǔ)的可靠性。當(dāng)存在MAFs低的多態(tài)性時(shí),這可能是一個(gè)問(wèn)題,因?yàn)镸AFs<5的填充SNP被重新排除在分析之外。

?

數(shù)據(jù)來(lái)源方差異質(zhì)

?

一些表型可能難以測(cè)量或具有很高的測(cè)量變異性。在大型GWA研究中,通常需要協(xié)調(diào)不同的數(shù)據(jù)源并構(gòu)建一個(gè)可比較的表型。因?yàn)橐呀?jīng)收集了大多數(shù)表型。通常很難進(jìn)行完全協(xié)調(diào)的分析。例如,2018年的一項(xiàng)研究考察了受教育年限的遺傳基礎(chǔ),詳細(xì)考察了表型分類的差異如何影響結(jié)果【15】。

他們得出結(jié)論,在可能的情況下,最詳細(xì)的措施是最好的。然而,在協(xié)調(diào)多個(gè)數(shù)據(jù)集時(shí),許多GWA通常協(xié)調(diào)到最常見的分類,因此通常最不詳細(xì)的分類。

除第3章詳細(xì)討論的基于祖先的異質(zhì)性外,可能存在諸如出生隊(duì)列、國(guó)家或性別等不一致性。在第3章中,我們展示了即使在荷蘭或英國(guó)等相對(duì)較小的國(guó)家,也存在不同的人口分層模式。GWAS通常會(huì)結(jié)合來(lái)自多個(gè)國(guó)家和歷史時(shí)期的數(shù)據(jù),以獲得足夠大的樣本量。隱含的假設(shè)是,遺傳學(xué)對(duì)個(gè)體的影響在時(shí)間和地點(diǎn)上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項(xiàng)研究中,我們證明了事實(shí)并非如此,并且結(jié)合這些不同的數(shù)據(jù)集有可能掩蓋差異,尤其是行為表型【16】。在所謂的“大型分析”中,我們證明,當(dāng)數(shù)據(jù)合并時(shí),對(duì)教育和第一個(gè)孩子出生時(shí)間的遺傳影響中,約有40%是隱藏的或淡化的,這增加到75個(gè)或是出生過(guò)的孩子的數(shù)量。相反,我們發(fā)現(xiàn)與身高相關(guān)的遺傳變異在不同人群中似乎是相同的。性別差異也可能導(dǎo)致異質(zhì)性,這就是為什么一些分析,如與生殖或生殖行為相關(guān),分別檢查雌性、雄性和匯總結(jié)果【6,17】。顯然,這可以擴(kuò)展到考慮其他類型的異質(zhì)性,如年齡或生命歷程影響或社會(huì)經(jīng)濟(jì)地位。

?

基因型數(shù)據(jù)質(zhì)控

?

對(duì)遺傳數(shù)據(jù)進(jìn)行分析以進(jìn)行GWAS需要了解這種情況下的統(tǒng)計(jì)推斷,但也需要進(jìn)行大量質(zhì)量檢查,稱為質(zhì)量控制(QC)。QC是處理遺傳數(shù)據(jù)的核心方面之一。我們?cè)诘?章中討論了與GWASs相關(guān)的OC(見第8.5節(jié))。QC對(duì)于可靠的GWAS結(jié)果是必要的,因?yàn)樵蓟蛐蛿?shù)據(jù)本身就存在問(wèn)題(見方框4.2)。例如,您可能有很大比例的個(gè)體缺失數(shù)據(jù),或者個(gè)體中缺失基因型的比率很高,或者其他與低樣本質(zhì)量相關(guān)的問(wèn)題。正如我們?cè)诘?章中更詳細(xì)地概述的那樣,QC可分為個(gè)體的質(zhì)控和SNP的質(zhì)控

個(gè)體水平QC經(jīng)常檢查(1)DNA數(shù)據(jù)質(zhì)量差,(2)常染色體雜合度高或低,(3)性別信息不一致,(4)重復(fù)或相關(guān)個(gè)體,以及,(5)祖先差異。第二組質(zhì)量控制分析側(cè)重于基因型的數(shù)據(jù)質(zhì)量或我們?cè)诘?章中根據(jù)標(biāo)記OC討論的內(nèi)容。在這里,我們采取幾個(gè)步驟來(lái)消除可能在研究中引入偏見的變體,即:(1)排除低呼叫率SNP;(2) 去除等位基因頻率極低的SNP(罕見變體);(3) 識(shí)別和排除極端偏離哈迪-溫伯格平衡的變體;(4) 在病例對(duì)照研究中,排除單核苷酸多態(tài)性組間的極端差異通話率;(5)在處理插補(bǔ)SNP的情況下,排除插補(bǔ)質(zhì)量低的變異研究。

?

NHGRI-EBI GWAS目錄

什么是NHGRI-EBI GWAS目錄

?

該領(lǐng)域的新手通常想知道哪些表型已經(jīng)被研究過(guò),以及已經(jīng)鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄(以下簡(jiǎn)稱目錄),包括所有已發(fā)布GWAS的數(shù)據(jù),位于https://www./gwas/.它是由美國(guó)生產(chǎn)的。

國(guó)家人類基因組研究所(NHGRI)[19]與歐洲生物信息學(xué)研究所(EBI)[20]。要列入目錄,研究必須符合非常嚴(yán)格的標(biāo)準(zhǔn)(見www./gwas/docs/methods),包括基于陣列的gwas和對(duì)100000多個(gè)全基因組覆蓋的SNP的分析。目錄中報(bào)告的SNP性狀關(guān)聯(lián)是那些p值至少小于1×10-5的性狀關(guān)聯(lián)。目錄研究人員通過(guò)自動(dòng)PubMed搜索找到研究,然后手動(dòng)整理它們以進(jìn)行評(píng)估和納入。所有GWAS性狀都映射到實(shí)驗(yàn)因子本體(EFO)[21]中的術(shù)語(yǔ),這是一個(gè)用于分子生物學(xué)的變量本體,包括疾病、解剖學(xué)、細(xì)胞類型、細(xì)胞系、化合物和分析信息。例如,如果您搜索“心血管疾病”,目錄將提供該特定特征及其子特征的所有研究和關(guān)聯(lián)的結(jié)果和可視化結(jié)果。在這個(gè)例子中,潛臺(tái)詞可能是“心肌梗死”或“冠心病”?圖4.3顯示了NHGRI-EBI GWAS目錄,說(shuō)明了根據(jù)所有(人類)染色體的基因組位置報(bào)告的遺傳關(guān)聯(lián)。每一條線都鏈接到一個(gè)與p值閾值為p的性狀相關(guān)的基因座≤5×10-8,每個(gè)圓圈都有顏色編碼,以表示一個(gè)獨(dú)特的特征。他們根據(jù)17個(gè)主要特征類別進(jìn)行分組,如消化系統(tǒng)疾病、血液學(xué)測(cè)量、癌癥或藥物反應(yīng)??梢酝ㄟ^(guò)出版物、變體、性狀或基因搜索目錄,這些信息會(huì)隨著新出版物不斷更新。

?

GWAS歷史介紹

?

以下是幾篇關(guān)于GWASs的優(yōu)秀敘述性評(píng)論,描述了基本原理和科學(xué)結(jié)論,并強(qiáng)調(diào)了關(guān)鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】,由于需要合作整合多個(gè)數(shù)據(jù)源,該論文被譽(yù)為外交方面的杰作【23】。

如前所述,要進(jìn)行成功的GWAS,需要大樣本量以提供足夠的統(tǒng)計(jì)能力[25]。這意味著大多數(shù)GWASs發(fā)布到數(shù)據(jù)通常將來(lái)自多個(gè)數(shù)據(jù)源的單獨(dú)分析的匯總結(jié)果匯集到元分析中,以獲得盡可能大的樣本量。過(guò)去幾十年來(lái),技術(shù)、方法、理論、計(jì)算能力和資金的進(jìn)步極大地改變了GWAS的格局。

在我們之前的工作中,Mills和Rahal(2019)[3]對(duì)2005年至2018年10月的13年間的所有GWASs進(jìn)行了系統(tǒng)和計(jì)算審查。我們使用NHGRI-EBI GWAS目錄,并將其鏈接到PubMed等外部數(shù)據(jù)庫(kù)。重要的是要注意,除了創(chuàng)建此aliving數(shù)據(jù)庫(kù)之外,我們還包括了在公開的GitHub站點(diǎn)上使用的所有代碼(https://github.com/crahal/GWASReview).

換句話說(shuō),隨著每個(gè)目錄的更新,我們的數(shù)據(jù)庫(kù)以及這里描述的數(shù)字和數(shù)字將隨著時(shí)間的推移自動(dòng)更新。如圖4.4所示,隨著時(shí)間的推移,發(fā)布的GWASs數(shù)量、樣本量、關(guān)聯(lián)數(shù)量和研究的疾病都有顯著增長(zhǎng)。

在上面的面板中,我們看到隨著時(shí)間的推移,發(fā)表的研究數(shù)量大幅增加(根據(jù)樣本大小劃分)。在這里,隨著時(shí)間的推移,我們看到樣本量的驚人增長(zhǎng),在2018年末和2019年初發(fā)布的樣本有時(shí)包含100多萬(wàn)個(gè)個(gè)體。這些較大的研究主要?dú)w功于英國(guó)生物銀行(約50萬(wàn)個(gè)人)[26、27],以及參與這項(xiàng)研究的23andMe等大型直接面向消費(fèi)者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關(guān)聯(lián)數(shù)量與GWASs中使用的參與者數(shù)量之間的強(qiáng)正相關(guān)關(guān)系。右下角的面板顯示了獨(dú)特特征數(shù)量的增長(zhǎng)以及發(fā)布GWASs的期刊數(shù)量的增長(zhǎng)。截至2018年10月,我們發(fā)現(xiàn)發(fā)表了3639項(xiàng)研究,涵蓋了5849個(gè)獨(dú)特的研究材料(論文中歸因于性狀的標(biāo)識(shí)符),涉及3508個(gè)獨(dú)特的性狀,映射到2532個(gè)EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費(fèi)或神經(jīng)質(zhì)。每次研究的平均命中數(shù)為15.3,最強(qiáng)風(fēng)險(xiǎn)等位基因的平均p值為1.3729×10-6。55歲左右?報(bào)告的關(guān)聯(lián)符合p的標(biāo)準(zhǔn)閾值≤5×10-8.

?

GWAS多樣性的確定

?

或者是該領(lǐng)域的新研究人員,有必要注意到目前基因樣本缺乏多樣性。正如我們?cè)谇皫渍轮兴懻摰?,受試者祖先多樣性的差異與人口分層等技術(shù)問(wèn)題有關(guān)[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】,但也由于文化不信任和數(shù)據(jù)的社會(huì)濫用而拒絕參與研究【32,33】。圖4.5顯示,盡管GWASs的數(shù)量和性狀隨著時(shí)間的推移確實(shí)呈爆炸式增長(zhǎng),但它仍然主要存在于歐洲祖先群體中,非歐洲群體更常在復(fù)制階段進(jìn)行檢查。這意味著這些非歐洲人群經(jīng)常被用來(lái)測(cè)試歐洲祖先群體會(huì)在其他祖先群體中復(fù)制,因此通常不會(huì)作為這些群體中基本基因發(fā)現(xiàn)的基礎(chǔ)。

圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達(dá)95%的受試者到2017年的88%不等。特別是自201l年以來(lái),對(duì)亞洲人群的研究一直在強(qiáng)勁而穩(wěn)定地增長(zhǎng)(見方框4.3)。如Mills和Rahal(2019年,表2)[3]所述,這主要是日本、中國(guó)和韓國(guó)人口。隨著時(shí)間的推移,對(duì)非洲人口的研究最少,人們希望非洲基因組變異項(xiàng)目和其他促進(jìn)多樣性的項(xiàng)目將繼續(xù)增加和改變這些趨勢(shì)。

與GWA研究相關(guān)的多樣性幾乎只討論了與祖先相關(guān)的多樣性,但我們?cè)贕WA審查中還發(fā)現(xiàn),地理、環(huán)境、時(shí)間和人口(如年齡、性別)的多樣性明顯不足【3】。正如我們所注意到的,盡管目前世界人口中約76.2%居住在亞洲或非洲,但72%的基因發(fā)現(xiàn)來(lái)自僅居住在三個(gè)國(guó)家(美國(guó)、英國(guó)和冰島)的參與者。正如我們?cè)诒菊潞推渌胤剿U述的,需要做更多的工作來(lái)了解環(huán)境暴露和地理集中如何影響結(jié)果。例如,在美國(guó)、墨西哥和英國(guó),有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國(guó)家截然不同如日本、韓國(guó)、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊(duì)列、歷史時(shí)期和生命歷程階段缺乏時(shí)間和人口多樣性。GWASs中最常用的數(shù)據(jù)通常是年齡過(guò)大、社會(huì)經(jīng)濟(jì)地位較高、女性人數(shù)較多的數(shù)據(jù),而且通常還包括“健康志愿者”的選擇,如英國(guó)生物銀行[35]。

?

結(jié)論和未來(lái)的方向

?

自2005年第一次GWAS以來(lái),這一研究領(lǐng)域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄,其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領(lǐng)域是如何迅速發(fā)展的,這不僅是因?yàn)檠芯康难芯?、疾病和關(guān)聯(lián)的數(shù)量之多,還因?yàn)闃颖玖康牟粩鄶U(kuò)大。截至2019年,許多大型研究的綜合樣本超過(guò)100萬(wàn)例。然而,我們注意到,這種增長(zhǎng)甚至沒(méi)有跨越不同的祖先或地理群體,大多數(shù)研究仍在歐洲祖先群體中進(jìn)行。尤其是亞洲研究,隨著世界各地(如非洲)的新投資,進(jìn)一步增加了多樣性。一個(gè)新興而令人興奮的研究領(lǐng)域?qū)⑹欠菤W洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應(yīng)該注意到,組建這些大型財(cái)團(tuán)也可能是過(guò)去的事情。

隨著英國(guó)生物銀行(UK Biobank)等大型數(shù)據(jù)集和23andMe等直接面向消費(fèi)者的公司數(shù)量的不斷增加,收集許多小型數(shù)據(jù)隊(duì)列以生成大型樣本的情況似乎越來(lái)越不常見。

讀者還將對(duì)GWA研究所依據(jù)的方法學(xué)有一個(gè)基本的了解。雖然這仍然是一本介紹性的書,但我們希望您已經(jīng)初步了解了這種類型的研究是如何進(jìn)行的,GWASs中統(tǒng)計(jì)推斷的意義,以及為什么以及如何需要更正多次測(cè)試。

本書第8章還介紹了個(gè)人和遺傳標(biāo)記水平上質(zhì)量控制(QC)的重要性以及實(shí)際應(yīng)用。

我們對(duì)GWAS的簡(jiǎn)要?dú)v史表明,這是一個(gè)快速發(fā)展的研究領(lǐng)域。

正如我們?cè)陉P(guān)于倫理問(wèn)題和未來(lái)方向的第14章和第15章中所闡述的,GWAS也并非完全沒(méi)有爭(zhēng)議。有人擔(dān)心,長(zhǎng)長(zhǎng)的優(yōu)先“熱門”名單并沒(méi)有帶來(lái)一些人承諾的個(gè)性化藥物、新療法和風(fēng)險(xiǎn)預(yù)測(cè)工具。盡管超出了本書的支持范圍,但許多GWAS命中的生物學(xué)后續(xù)研究已經(jīng)找到了與已知生物途徑相關(guān)的變體,但也找到了其他未被臨床靶向的變體。

越來(lái)越多的研究不僅在研究常見的變異,也在研究罕見的變異。測(cè)序數(shù)據(jù)的進(jìn)一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領(lǐng)域和新方法。分析和合成GWAS數(shù)據(jù)的新方法也出現(xiàn)了,例如復(fù)雜性狀遺傳學(xué)虛擬實(shí)驗(yàn)室為GWAS后分析所做的工作(https:///updates).

?

練習(xí):

分割線


大家好,我是鄧飛,一個(gè)持續(xù)分享的數(shù)據(jù)分析師,這里我將自己公眾號(hào)的干貨內(nèi)容挑重點(diǎn)羅列一下,方便大家閱讀和使用。

1,快來(lái)領(lǐng)取 | 飛哥的GWAS分析教程

2,飛哥匯總 | 入門數(shù)據(jù)分析資源推薦

3,數(shù)量遺傳學(xué),分享幾本書的電子版

4,學(xué)習(xí)R語(yǔ)言這幾本電子書就夠了!

5,書籍及配套代碼領(lǐng)取--統(tǒng)計(jì)遺傳分析導(dǎo)論

6,統(tǒng)計(jì)遺傳學(xué):第一章,基因組基礎(chǔ)概念

7,統(tǒng)計(jì)遺傳學(xué):第二章,統(tǒng)計(jì)分析概念

8,統(tǒng)計(jì)遺傳學(xué):第三章,群體遺傳

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多