【原】統(tǒng)計(jì)遺傳學(xué)：第四章，GWAS分析

育種數(shù)據(jù)分析 2022-07-03 發(fā)布于河南

展開全文

大家好，我是鄧飛，今天繼續(xù)介紹《統(tǒng)計(jì)遺傳學(xué)》這本書，本次介紹第四章：GWAS分析，主要是綜述介紹，具體的實(shí)操介紹要到八九十章節(jié)。

這一章節(jié)內(nèi)容很豐富，人類中GWAS關(guān)注的點(diǎn)，GWAS和LD與填充的關(guān)系，GWAS中影響的因素，包括群體結(jié)構(gòu)、異質(zhì)性。另外還有GWAS結(jié)果的矯正，包括Bonferroni ，F(xiàn)DR以及置換檢驗(yàn)，最后還有位點(diǎn)注釋。

不同學(xué)科，GWAS關(guān)注的點(diǎn)不一樣，動(dòng)植物可能就是群體分析+基因注釋，人類中會(huì)有多基因得分（PGS），這個(gè)相當(dāng)于動(dòng)植物中的分子標(biāo)記輔助（MAS）或者是基因組選擇（GS）。雖然概念有所區(qū)分，但是理論都是相通的。

這本書的電子版，之前是不能選擇復(fù)制的，后來(lái)有位老師將其轉(zhuǎn)化為文字版的，就可以復(fù)制了，這樣結(jié)合pdf閱讀器的翻譯，可以更方便的閱讀。明天介紹一下使用的方法。

引文部分是原書的谷歌翻譯，正文部分是我的理解。

第一部分基礎(chǔ)，分為六個(gè)章節(jié)，分別是：

第一章：基因組基礎(chǔ)概念（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第二章：統(tǒng)計(jì)分析概念（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第三章：群體遺傳（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第四章：GWAS分析
第五章：多基因效應(yīng)
第六章：基因與環(huán)境互作

今天，介紹第四章的內(nèi)容，GWAS分析，看一下目錄：

了解全基因組關(guān)聯(lián)研究·
掌握基因分型和測(cè)序陣列的基礎(chǔ)和局限性及其與連鎖不平衡和填充的關(guān)系
了解全基因組關(guān)聯(lián)研究研究設(shè)計(jì)、元分析和數(shù)據(jù)分析計(jì)劃
了解全基因組關(guān)聯(lián)研究的統(tǒng)計(jì)推斷、方法和異質(zhì)性的基本方面
掌握質(zhì)量控制的類型
了解NHGRI-EBI GWAS目錄以概述全基因組關(guān)聯(lián)研究
認(rèn)識(shí)到在祖先、地理、時(shí)間，迄今為止全基因組關(guān)聯(lián)研究的人口多樣性及其對(duì)研究的影響
認(rèn)識(shí)這一研究領(lǐng)域的未來(lái)方向

簡(jiǎn)介和背景

?
隨著基因分型技術(shù)的發(fā)展、成本的降低和先進(jìn)數(shù)據(jù)分析方法的發(fā)展，遺傳關(guān)聯(lián)研究的設(shè)計(jì)在過(guò)去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標(biāo)準(zhǔn)的，但早期的研究只關(guān)注有限數(shù)量的“候選”基因座。候選基因研究一詞是指這一領(lǐng)域的早期工作，其重點(diǎn)是預(yù)先確定的感興趣的基因座，這些基因座被認(rèn)為與所研究的性狀有關(guān)。正如我們?cè)陉P(guān)于基因-環(huán)境相互作用的第6章中詳細(xì)討論的那樣，許多早期候選基因研究由于多種原因存在問(wèn)題，主要是由于缺乏重復(fù)，雖然我們的目標(biāo)是讓這一領(lǐng)域的新研究人員避免犯類似的錯(cuò)誤，但我們應(yīng)該注意到，一些候選基因研究仍然成功地用于各種非行為醫(yī)學(xué)表型。當(dāng)時(shí)，許多性狀的極端多基因性和候選基因作為藥物靶點(diǎn)的失?。ɡ缫钟舭Y）讓許多人感到真正的驚訝。另一種選擇是全基因組關(guān)聯(lián)研究（GWAS），該研究同時(shí)測(cè)量了數(shù)百萬(wàn)個(gè)基因位點(diǎn)。
GWAS是目前用于確定單核苷酸多態(tài)性（SNP）與表型之間關(guān)聯(lián)的主要方法。正如我們稍后更詳細(xì)地討論的那樣，GWASs測(cè)試了數(shù)百萬(wàn)個(gè)單獨(dú)的回歸模型，以確定遺傳變異和表型之間的關(guān)聯(lián)?；仡櫟谝徽拢硇涂梢允菃位蛐誀?。
受單個(gè)基因內(nèi)變異的強(qiáng)烈影響。但許多是多基因復(fù)雜性狀，是多基因變異及其與行為和環(huán)境因素相互作用的結(jié)果。GWAS的結(jié)果顯示了每個(gè)單核苷酸多態(tài)性與特定性狀或表型的關(guān)聯(lián)。與候選基因研究相比，GWASs是無(wú)假設(shè)的，可以在所有基因型區(qū)域中尋找關(guān)聯(lián)。正如前面在第1章中所討論的，GWAS研究了將我們彼此區(qū)分開來(lái)的多態(tài)性。除了單卵（即同卵）雙胞胎外，這是0.1%的位點(diǎn)差異是我們與眾不同的原因。
由于許多性狀是復(fù)雜的，并且與多個(gè)遺傳位點(diǎn)（即多基因）相關(guān)，GWAS通常識(shí)別出許多遺傳變異，每個(gè)變異對(duì)表型的影響很小。由于影響大小較小，需要非常大的數(shù)據(jù)源，GWAS發(fā)現(xiàn)通常會(huì)在多個(gè)數(shù)據(jù)源上進(jìn)行許多GWAS分析，然后合并到一個(gè)元分析中。在GWASs中識(shí)別的大多數(shù)變體不被認(rèn)為是生物學(xué)上的因果關(guān)系，而是由于連鎖不平衡（LD），可以識(shí)別包含一個(gè)或多個(gè)生物學(xué)功能變體的區(qū)域。到2019年初，已經(jīng)進(jìn)行了近4000次GWASs，從不可知的角度確定了數(shù)千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病，如乳腺癌、阿爾茨海默病和2型糖尿病，但也包括人體測(cè)量（身高、體重）和行為特征，如初生年齡或教育程度。
本章介紹了GWAS研究和基本概念。由于GWASs的結(jié)果通常是許多實(shí)際應(yīng)用的基礎(chǔ)，因此本章對(duì)于第二部分的后續(xù)應(yīng)用章節(jié)至關(guān)重要，包括如何對(duì)遺傳數(shù)據(jù)進(jìn)行質(zhì)量控制（QC）（第8章）。在本章中，我們將介紹GWAS方法學(xué)的基礎(chǔ)知識(shí)，包括遺傳數(shù)據(jù)收集、研究設(shè)計(jì)和方法方面的細(xì)節(jié)，以及糾正多重測(cè)試的必要性。接下來(lái)，我們將在第8章介紹個(gè)體水平和遺傳標(biāo)記水平QC的類型。第4節(jié)簡(jiǎn)要介紹了GWAS元分析和進(jìn)一步的擴(kuò)展。最后，我們對(duì)NHGRI-EBI GWAS目錄，隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡(jiǎn)要?dú)v史。我們注意到GWAS樣本中缺乏各種類型的多樣性，例如缺乏祖先和人口多樣性，以及受試者在特定國(guó)家集中。最后，我們做了一個(gè)簡(jiǎn)短的總結(jié)，并指出了未來(lái)的研究方向。
?

GWAS研究分析和元分析

數(shù)據(jù)分析流程

?
基因發(fā)現(xiàn)不僅是一項(xiàng)智力挑戰(zhàn)，也是一項(xiàng)組織和后勤挑戰(zhàn)。由于GWA的質(zhì)量和成功傳統(tǒng)上取決于收集大量樣本，因此已成立了大型財(cái)團(tuán)，進(jìn)行獨(dú)立的GWA，隨后由領(lǐng)導(dǎo)該項(xiàng)目的核心小組進(jìn)行元分析。圖4.1描述了GWAS階段，這可能是現(xiàn)代科學(xué)中最大類型的合作努力之一?？紤]到所需的廣泛專業(yè)知識(shí)、需要成立的財(cái)團(tuán)以及長(zhǎng)期和耗時(shí)的投資。這一領(lǐng)域的新研究人員很少會(huì)啟動(dòng)自己的獨(dú)立GWA。然而，了解GWA的構(gòu)思過(guò)程是有用的。
首先從一般可行性分析開始，研究人員需要了解表型、迄今為止研究的內(nèi)容、測(cè)量和先前的遺傳力估計(jì)或其他GWAS結(jié)果（如果可用）。這一研究領(lǐng)域在總結(jié)現(xiàn)有結(jié)果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如，你可以參考對(duì)50多個(gè)雙生子研究中許多人類性狀遺傳力的綜合分析（見[4]）。它還附帶了一個(gè)名為MaTCH（雙胞胎相關(guān)性和遺傳力的元分析）的web應(yīng)用程序，可通過(guò)http://match.ctglabnl/。還有其他網(wǎng)站，如SNPedia(https://www./index，php/遺傳力），該目錄列出了與特定研究相關(guān)的遺傳力估計(jì)值。Ben Neale的實(shí)驗(yàn)室還擁有一個(gè)令人難以置信的網(wǎng)站，用于檢測(cè)英國(guó)生物庫(kù)中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復(fù)雜性狀遺傳學(xué)虛擬實(shí)驗(yàn)室（CTG-VL）生成結(jié)果的可視化，包括曼哈頓圖和許多其他結(jié)果，用于GWAS后分析[5]，ttps:// and http/atlas.ctglab.nI/。
下一步是隔離哪些數(shù)據(jù)源可能具有您感興趣的表型，如果適用，組建或聯(lián)系一個(gè)聯(lián)盟，或獲取現(xiàn)有或公開可用的數(shù)據(jù)（如英國(guó)生物銀行）。組建一個(gè)財(cái)團(tuán)需要花費(fèi)大量的時(shí)間和精力，包括經(jīng)常等待道德和準(zhǔn)入許可，在某些情況下還需要處理付款以使用數(shù)據(jù)。盡管英國(guó)生物銀行（約500000個(gè)）等大型數(shù)據(jù)集最近已經(jīng)面世，但通常會(huì)形成大型聯(lián)合體，將多個(gè)數(shù)據(jù)集組合在一起，以產(chǎn)生盡可能大的樣本。在許多情況下，每個(gè)數(shù)據(jù)源的獨(dú)立分析師負(fù)責(zé)執(zhí)行
?

分析步驟：

確定可行性，查閱文獻(xiàn)，查看遺傳力，表型測(cè)定方法
從實(shí)驗(yàn)搜集數(shù)據(jù)，或者已有的數(shù)據(jù)，確定合作方案
撰寫數(shù)據(jù)分析方案
數(shù)據(jù)存儲(chǔ)，轉(zhuǎn)換，分析，描述分析，匯總結(jié)果
QC質(zhì)控，單獨(dú)分析和元分析
重點(diǎn)查看顯著的位點(diǎn)
注釋，查看結(jié)果

?
GWAS內(nèi)部，并將結(jié)果發(fā)送回聯(lián)合體領(lǐng)導(dǎo)人。這通常與數(shù)據(jù)的隱私和同意問(wèn)題有關(guān)，如本書最后一部分第l4章所述，GWAS匯總統(tǒng)計(jì)的元分析因此是發(fā)現(xiàn)與表型相關(guān)的遺傳變異的最常用方法。由于常見等位基因的遺傳效應(yīng)很小，我們從第一章之前的討論中了解到，信號(hào)檢測(cè)需要更大的樣本量。由于單個(gè)GWASs的動(dòng)力不足，研究人員需要進(jìn)行元分析并合并多個(gè)數(shù)據(jù)源。
?

數(shù)據(jù)分析計(jì)劃

這部分，主要是如何收集數(shù)據(jù)，包括設(shè)置問(wèn)卷調(diào)查注意事項(xiàng)。還應(yīng)該注意，應(yīng)該包括一些協(xié)變量。然后常用的數(shù)據(jù)質(zhì)控，使用的模型，有時(shí)候會(huì)考慮家系的作用。

?
如果您的目標(biāo)是收集大量樣本，請(qǐng)說(shuō)明如何選擇加入聯(lián)盟和關(guān)鍵截止日期。
然后經(jīng)常列出詳細(xì)的樣本納入標(biāo)準(zhǔn)。例如，在我們對(duì)人類生殖的研究中，我們還檢查了有史以來(lái)出生的兒童數(shù)量（NEB），只包括那些已經(jīng)到了生育期結(jié)束的兒童（女性至少45歲，男性55歲），并澄清說(shuō)，我們還希望分析人員將從未生過(guò)孩子的個(gè)人包括在內(nèi)。這也是您指定任何祖先要求、相關(guān)協(xié)變量、基因分型率（>95？）和其他質(zhì)量控制的地方（另見第8章）。
基因型和插補(bǔ)信息，包括插補(bǔ)前需要應(yīng)用的任何推薦標(biāo)記過(guò)濾器，我們將很快討論。在前面提到的示例分析計(jì)劃中，SNP call rate>95,HWE>10-6，MAF>5%這些價(jià)值背后的邏輯將在第8章中詳細(xì)討論。
用于關(guān)聯(lián)測(cè)試的模型的ear規(guī)范。例如，在我們的研究中，我們要求對(duì)男性和女性的兩種表型（AFB、NEB）的回歸模型進(jìn)行估計(jì)，然后合并。例如，一個(gè)方程是Y=m+SNP，β+Zy+e。許多研究還經(jīng)常包括基于家庭的數(shù)據(jù)，其中82第4章應(yīng)提供明確的案例說(shuō)明，以考慮數(shù)據(jù)中的脆弱性結(jié)構(gòu)或選擇家庭成員。我們指定了線性回歸模型，其中包括幾個(gè)協(xié)變量（例如，控制人口分層、控制非線性效應(yīng)的出生隊(duì)列或任何研究特定協(xié)變量）。
為結(jié)果指定fle格式。例如，許多人經(jīng)常選擇費(fèi)用聯(lián)合體共享格式。！文件命名方案同樣重要，因?yàn)槟鷮⑹盏綌?shù)百個(gè)不同的文件。
數(shù)據(jù)交換和安全程序也很重要，最近在歐洲工作的許多人需要遵守GDPR（一般數(shù)據(jù)保護(hù)條例）（見第14章，道德）。
然后，還經(jīng)常包括薈萃分析的描述。這包括標(biāo)記排除篩選、基因組控制、顯著性閾值以及頂級(jí)SNP的報(bào)告方式。
每個(gè)參與的數(shù)據(jù)源（在這一研究領(lǐng)域通常稱為隊(duì)列）單獨(dú)運(yùn)行分析，或者可以授權(quán)訪問(wèn)數(shù)據(jù)。每個(gè)研究的匯總統(tǒng)計(jì)結(jié)果通常會(huì)與特定數(shù)據(jù)源數(shù)據(jù)的一些描述性信息一起上傳。然后將這些結(jié)果結(jié)合起來(lái)進(jìn)行薈萃分析。
?

元分析

?
元分析是對(duì)來(lái)自多個(gè)獨(dú)立研究的信息進(jìn)行統(tǒng)計(jì)綜合，從而提高功效，進(jìn)而降低假陽(yáng)性發(fā)現(xiàn)的風(fēng)險(xiǎn)【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議，其中包括，例如，在當(dāng)前聯(lián)合體發(fā)布之前，不要發(fā)布該表型的GWAS，GWAS薈萃分析使用所謂的匯總數(shù)據(jù)，提供回歸系數(shù)、標(biāo)準(zhǔn)誤差、，依此類推，對(duì)于遵循預(yù)先指定的分析計(jì)劃的群體中的每個(gè)遺傳標(biāo)記。因此，它不是單個(gè)級(jí)別的數(shù)據(jù)，而是匯總的匯總結(jié)果。我們2016年的生殖行為研究【6】。
例如，涉及一個(gè)元分析，它使用來(lái)自60多個(gè)不同數(shù)據(jù)源的匯總統(tǒng)計(jì)數(shù)據(jù)。在第8章中，我們描述了如何在個(gè)人層面上參與OC，然后再進(jìn)行GWAS（例如，去除等位基因頻率低的變體。插補(bǔ)質(zhì)量低，等位基因頻率與參考樣本有很大差異，或由其他地方未復(fù)制的特定研究驅(qū)動(dòng)的結(jié)果）。GWAS薈萃分析中一個(gè)重要且耗時(shí)的步驟是第二套質(zhì)量控制，它基本上是協(xié)調(diào)各研究的結(jié)果。盡管提供了統(tǒng)一的分析計(jì)劃，但此清理過(guò)程可能在初始項(xiàng)目中花費(fèi)的時(shí)間最長(zhǎng)，因?yàn)榉治鋈藛T可能使用不同的軟件，或者結(jié)果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎(chǔ)上，為meta-OC過(guò)程提供了一個(gè)優(yōu)秀的協(xié)議。
?

統(tǒng)計(jì)推斷、方法和異質(zhì)性

表型數(shù)據(jù)

確定數(shù)據(jù)的類型，以及需要考慮的協(xié)變量

?
GWA研究的核心前提是對(duì)特定人群中的大量樣本同時(shí)進(jìn)行數(shù)百萬(wàn)個(gè)假設(shè)檢驗(yàn)，或者換言之，對(duì)每個(gè)變量進(jìn)行一個(gè)假設(shè)檢驗(yàn)。每個(gè)遺傳關(guān)聯(lián)研究都采用統(tǒng)計(jì)推斷來(lái)確定和量化遺傳位點(diǎn)和表型之間的關(guān)聯(lián)強(qiáng)度。關(guān)聯(lián)方法的選擇通常取決于表型的性質(zhì)，以及它是二分型（即二分型）還是定量型（即連續(xù)型），但考慮潛在的混雜因素（如gsex、年齡、出生隊(duì)列）也是常見的。
對(duì)于數(shù)量或連續(xù)特征（例如，初生年齡或體重指數(shù)），分析會(huì)在表型的連續(xù)分布范圍內(nèi)對(duì)個(gè)體進(jìn)行比較，通常使用線性回歸。在這里，我們比較了基于檢驗(yàn)統(tǒng)計(jì)量的分布與任何標(biāo)記無(wú)關(guān)聯(lián)的零假設(shè)，并考慮了標(biāo)準(zhǔn)誤差。刪失數(shù)據(jù)生存模型的其他擴(kuò)展也越來(lái)越可能。對(duì)于二元或二元性狀，它通常使用邏輯回歸來(lái)比較高（病例）值和低（對(duì)照）值。與典型的logistic模型一樣，假設(shè)所研究性狀的logit變換與等位基因呈線性關(guān)系，但通常用優(yōu)勢(shì)比來(lái)解釋。
?

使用P-values和Z-scores

P-value一般用于單個(gè)數(shù)據(jù)的分析，Z-score可以用于元分析，表示結(jié)果。

?
第2章更詳細(xì)地闡述了這類研究的統(tǒng)計(jì)基礎(chǔ)。簡(jiǎn)而言之，目標(biāo)是對(duì)遺傳位點(diǎn)和正在研究的表型之間的每一個(gè)真實(shí)關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)顯著性估計(jì)。正如大多數(shù)讀者所知，正如前面第2章所討論的，統(tǒng)計(jì)顯著性通常由p值決定。p值估計(jì)獲得測(cè)試統(tǒng)計(jì)值的概率，該值與通過(guò)所選統(tǒng)計(jì)方法為潛在關(guān)聯(lián)估計(jì)的值一樣極端（即，在零下）。這并不是一個(gè)基因座與一個(gè)特征相聯(lián)系的可能性。當(dāng)我們進(jìn)行這種回歸時(shí)，我們使用t檢驗(yàn)等檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)特定遺傳變異的β參數(shù)是否顯著不同于零。檢驗(yàn)統(tǒng)計(jì)量是用來(lái)衡量對(duì)無(wú)效假設(shè)支持程度的數(shù)據(jù)的數(shù)值總結(jié)。在零假設(shè)下，檢驗(yàn)統(tǒng)計(jì)量可能具有已知的概率分布（例如，x’），或者估計(jì)其零分布?；叵胍幌拢瑹o(wú)效假設(shè)是對(duì)特定人群之間沒(méi)有顯著差異的假設(shè)的統(tǒng)計(jì)檢驗(yàn)，在GWAS的情況下，是病例和對(duì)照之間的差異。任何觀察到的差異都?xì)w因于采樣或?qū)嶒?yàn)誤差。如果從遺傳位點(diǎn)產(chǎn)生的檢驗(yàn)統(tǒng)計(jì)量值與我們從無(wú)效假設(shè)中預(yù)期的值顯著偏離，則有證據(jù)表明存在替代性組間存在顯著差異（病例組與對(duì)照組）或與數(shù)量性狀存在顯著關(guān)系。
在薈萃分析中，p值的缺點(diǎn)是不能提供效應(yīng)大小的總體估計(jì)，這一點(diǎn)已被廣泛討論。此外，無(wú)法評(píng)估數(shù)據(jù)集之間的異構(gòu)性。還使用了一個(gè)相關(guān)的統(tǒng)計(jì)數(shù)據(jù)，即Z分?jǐn)?shù)，它基于Z的平均值；值，即第i次研究的Z值，盡管p值和Z值高度相關(guān)，但使用Z值的優(yōu)勢(shì)在于，它們考慮了影響的方向，并且您能夠引入權(quán)重（例如，如果您希望某項(xiàng)特定研究的權(quán)重更高或更低）。單核苷酸多態(tài)性被標(biāo)記為或被視為“點(diǎn)擊率”，以p值為衡量標(biāo)準(zhǔn)。
如前所述，商定的全基因組顯著閾值為p<5×10-8。
這對(duì)應(yīng)于Bonferroni校正，將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化，全基因組顯著性閾值可能因人群而異。在LD較低的人群中，如非洲祖先群體，應(yīng)使用更嚴(yán)格的閾值[9]。
?

矯正GWAS結(jié)果

常用的方法有：

Bonferroni correction，一般用0.05/N，或者1/N來(lái)確定P值
置換檢驗(yàn)
FDR檢驗(yàn)

「第一種：Bonferroni矯正」

?
DNA微陣列和下一代測(cè)序使我們能夠檢測(cè)大量串聯(lián)基因組位點(diǎn)的相關(guān)性。GWAS結(jié)果中進(jìn)行比較的程度稱為多重測(cè)試問(wèn)題。這是兩種誤報(bào)（l類錯(cuò)誤）的可能性，如果多重比較的校正過(guò)于保守或功率不足，則會(huì)產(chǎn)生誤報(bào)（2類錯(cuò)誤）。我們測(cè)試了整個(gè)基因組中數(shù)百萬(wàn)個(gè)基因變體的關(guān)聯(lián)，但只有很小一部分在全基因組顯著性水平上與表型相關(guān)。
問(wèn)題是，當(dāng)我們進(jìn)行這么多測(cè)試時(shí)，我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強(qiáng)大關(guān)聯(lián)的危險(xiǎn)。在GWAS中，對(duì)每個(gè)遺傳位點(diǎn)和表型進(jìn)行統(tǒng)計(jì)檢驗(yàn)，以產(chǎn)生檢驗(yàn)統(tǒng)計(jì)量和相關(guān)的p值。如果我們?nèi)?biāo)準(zhǔn)p值0.05.
即使給定的遺傳變異與我們的表型無(wú)關(guān)，我們也有1/20的機(jī)會(huì)發(fā)現(xiàn)顯著的關(guān)聯(lián)。這就是所謂的類型1錯(cuò)誤或假陽(yáng)性。由于在GWAS中，我們實(shí)際上并行執(zhí)行了數(shù)百萬(wàn)次測(cè)試，如果我們采用標(biāo)準(zhǔn)的0.05顯著性閾值，我們很可能會(huì)獲得許多誤報(bào)。為了解決這個(gè)多重測(cè)試問(wèn)題，最常用和最直接的修正是Bonferroni修正。簡(jiǎn)單地說(shuō)，我們將所選的顯著性閾值（p值）除以所執(zhí)行的測(cè)試數(shù)量。如果進(jìn)行了10次測(cè)試，我們只會(huì)聲明，如果p值小于0.005，結(jié)果才是顯著的。在基因組的情況下，我們正在測(cè)試100萬(wàn)個(gè)獨(dú)立的遺傳變異是否存在常見的序列變異，因此，Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計(jì)學(xué)中獨(dú)立性的基本假設(shè)有關(guān)，或者說(shuō)你應(yīng)該從你的樣本中得到反映你會(huì)在人群中發(fā)現(xiàn)。
如果數(shù)據(jù)中存在最小的依賴性，而您違反了這一假設(shè)，則會(huì)產(chǎn)生有偏差的結(jié)果。GWASs的一個(gè)統(tǒng)計(jì)問(wèn)題是，附近基因變體的基因型之間往往存在著很強(qiáng)的相關(guān)性?；蛘邠Q句話說(shuō)，實(shí)際測(cè)試100萬(wàn)個(gè)遺傳變異實(shí)際上更像是測(cè)試70萬(wàn)到80萬(wàn)個(gè)不相關(guān)的遺傳變異。因此，在GWAS中，采用統(tǒng)計(jì)閾值，以p<5×10-8（即p<0.0000000-5）作為全基因組統(tǒng)計(jì)顯著性的標(biāo)準(zhǔn)，而p<5×10-6通常用于表示“提示性命中”
?

「第二種：置換檢驗(yàn)」

?
有人認(rèn)為，Bonferroni校正過(guò)于保守，導(dǎo)致假陰性結(jié)果的比例增加，并假設(shè)每個(gè)基因變異都是獨(dú)立于其他變異進(jìn)行測(cè)試的，這是獨(dú)立的。雖然對(duì)替代方法的詳細(xì)解釋超出了本介紹性書籍的范圍，但還有其他方法可以糾正多次測(cè)試。基于排列的測(cè)試多次對(duì)表型進(jìn)行排列，然后每次重新計(jì)算統(tǒng)計(jì)測(cè)試，以產(chǎn)生可用于假設(shè)測(cè)試的經(jīng)驗(yàn)零分布。
將其視為標(biāo)簽的洗牌可能更為直觀。為了計(jì)算基于排列的p值，結(jié)果度量標(biāo)簽被隨機(jī)排列或洗牌多次（例如1000-1000000），這有效地消除了基因型和表型之間的任何真正關(guān)聯(lián)。然后對(duì)所有置換數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)測(cè)試。
這提供了無(wú)關(guān)聯(lián)零假設(shè)下檢驗(yàn)統(tǒng)計(jì)量和p值的經(jīng)驗(yàn)分布。然后將從觀察數(shù)據(jù)中獲得的原始檢驗(yàn)統(tǒng)計(jì)量或p值與p值的經(jīng)驗(yàn)分布進(jìn)行比較，以確定經(jīng)驗(yàn)調(diào)整的p值?；谥脫Q的測(cè)試是計(jì)算密集型的，尤其是當(dāng)需要許多置換時(shí)，這對(duì)于精確計(jì)算非常小的p值是必要的[1]。
?

「第三種：FDR」

?
另一種技術(shù)是Benjamini-Hochberg錯(cuò)誤發(fā)現(xiàn)率（FDR），它比Bonferroni校正更保守。它控制所有信號(hào)中誤報(bào)的預(yù)期比例，F(xiàn)DR值低于固定閾值，并假設(shè)SNP是獨(dú)立的。該方法將誤報(bào)的預(yù)期比例降至最低，但不具有統(tǒng)計(jì)意義。一個(gè)限制是，F(xiàn)DR方法仍然假設(shè)SNP和p值是獨(dú)立的。
而是一個(gè)“標(biāo)簽”換句話說(shuō)，它們是標(biāo)記，因?yàn)楦浇淖凅w實(shí)際上可能是驅(qū)動(dòng)關(guān)聯(lián)的因素。請(qǐng)記住，這是一項(xiàng)相關(guān)性研究，而不是因果關(guān)系研究，因此需要進(jìn)一步的生物學(xué)和下游工作，以了解標(biāo)記或其附近標(biāo)記的生物學(xué)功能。在第10章第10.2節(jié)中，我們提供了一個(gè)更詳細(xì)的案例研究，說(shuō)明如何使用FTO（通常被稱為“脂肪基因”）實(shí)現(xiàn)這一目標(biāo)。第8章描述了我們?cè)贕WAS期間進(jìn)行的各種其他診斷檢查，包括使用森林圖和分位數(shù)-分位數(shù)（Q-Q）圖按性別或數(shù)據(jù)源檢查結(jié)果的異質(zhì)性。第9章還詳細(xì)介紹了控制人口分層的機(jī)制，這是第3章前面介紹的一個(gè)概念。
?

曼哈頓圖

?
GWAS的主要結(jié)果通常顯示在所謂的曼哈頓圖中，圖4.2顯示了第一次分娩時(shí)的年齡特征。該圖是一個(gè)散點(diǎn)圖，繪制了p值（軸）的負(fù)對(duì)數(shù)（以10為底）和按染色體（x軸）位置排序的SNP關(guān)聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。
圖中所示的單核苷酸多態(tài)性是標(biāo)記，許多不會(huì)是實(shí)際的因果變異
?

二分類性狀和數(shù)量性狀

二分類一般用卡方檢驗(yàn)，連續(xù)性狀用F檢驗(yàn)

?
為了評(píng)估二分性特征，卡方檢驗(yàn)通常用于測(cè)試病例和對(duì)照組之間分布頻率的差異。它計(jì)算病例和對(duì)照組的預(yù)期等位基因頻率，就好像SNP與表型無(wú)關(guān)一樣。然后以卡方統(tǒng)計(jì)量（X）的形式測(cè)量與該期望的偏差。假設(shè)SNP和性狀不相關(guān)，則這些偏差偶然發(fā)生的概率的p值報(bào)告測(cè)試。如果p值低于定義的顯著性閾值（在控制多次測(cè)試后，稍后討論），則發(fā)現(xiàn)是顯著的。
然后，我們通常還會(huì)估計(jì)影響大小，這對(duì)于理解關(guān)聯(lián)的大小或強(qiáng)度很重要。為了計(jì)算二分性狀的效應(yīng)大小，可以使用不同的方法，如優(yōu)勢(shì)比（OR）。這是給定表型相關(guān)等位基因的表型概率除以給定非相關(guān)等位基因的表型概率。請(qǐng)注意，這不應(yīng)在個(gè)人層面上解釋為“個(gè)人風(fēng)險(xiǎn)”，而是與另一個(gè)基因組相比的風(fēng)險(xiǎn)計(jì)算。p值表示遺傳關(guān)聯(lián)是否符合我們選擇的統(tǒng)計(jì)顯著閾值，但不能用于比較遺傳關(guān)聯(lián)。這是因?yàn)閜值受到樣本量、統(tǒng)計(jì)檢驗(yàn)?zāi)芰σ约八芯筷P(guān)系之外的其他因素的強(qiáng)烈影響。正是出于這個(gè)原因，我們使用效應(yīng)大小來(lái)比較兩個(gè)SNP：為了正確評(píng)估關(guān)聯(lián)的強(qiáng)度和解釋，你需要知道遺傳關(guān)聯(lián)的p值和效應(yīng)大小估計(jì)。
?

?
為了評(píng)估數(shù)量性狀，如身高，我們通常使用線性回歸，目的是將性狀與每個(gè)感興趣的SNP相關(guān)聯(lián)。與之前的測(cè)試一樣，回歸模型以p值和β系數(shù)定義的效應(yīng)大小的形式產(chǎn)生顯著性度量。然后對(duì)每個(gè)單核苷酸多態(tài)性進(jìn)行回歸分析，以確定全基因組顯著性閾值（p≤5×10-8). 為了解釋數(shù)量性狀的效應(yīng)大小，我們使用β系數(shù)，其中每個(gè)風(fēng)險(xiǎn)等位基因的出現(xiàn)對(duì)應(yīng)于數(shù)量性狀的增加，等于Beta系數(shù)。例如，假設(shè)我們將基因型AA、AG和GG的SNP與身高（厘米）相關(guān)聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因，β系數(shù)為0.5，則預(yù)測(cè)每個(gè)A等位基因?qū)€(gè)體身高的貢獻(xiàn)為0.5厘米。
效應(yīng)大小、樣本大小和統(tǒng)計(jì)能力是本分析中相互關(guān)聯(lián)的重要方面。雖然我們?cè)谶@里沒(méi)有詳細(xì)探討這一點(diǎn)，但力量還取決于其他因素，如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測(cè)，因?yàn)橹匾P(guān)聯(lián)的統(tǒng)計(jì)能力很低，需要非常大的樣本量?；蛘撸诓±龑?duì)照研究中，重要的不僅是樣本量，還有病例和對(duì)照的相對(duì)數(shù)量。相同數(shù)量的案例和控件是功率的最佳選擇。
?

固定效應(yīng)模型和隨機(jī)效應(yīng)模型

?
正如我們?cè)诘?章中所討論的，固定效應(yīng)模型依賴于假設(shè)每個(gè)風(fēng)險(xiǎn)等位基因在每個(gè)數(shù)據(jù)集中的真實(shí)效應(yīng)是相同的。雖然這個(gè)假設(shè)可能很脆弱，但與隨機(jī)效應(yīng)模型相比，這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒(méi)有詳細(xì)描述各種固定效應(yīng)模型，但包括反向方差加權(quán)和Cochran-Mantel-Haenszel。隨機(jī)效應(yīng)模型并不認(rèn)為所有研究在功能上都是等效的，因?yàn)樗鼈兊哪芰τ邢?，所以很少用于發(fā)現(xiàn)。當(dāng)這些模型的目的是試圖將觀察到的關(guān)聯(lián)推廣到人群之外，并估計(jì)相關(guān)變體的平均效應(yīng)大小以及不同人群的平均效應(yīng)大小，以便進(jìn)行預(yù)測(cè)時(shí)，更常用這些模型。
?

權(quán)重、FDR和填充

?
當(dāng)多個(gè)數(shù)據(jù)源組合在一起時(shí)，一些研究會(huì)有更多的數(shù)據(jù)，因此在薈萃分析結(jié)果中應(yīng)該比較小的研究更重要或權(quán)重更大。最常用的最佳權(quán)重是逆方差加權(quán)（每個(gè)研究根據(jù)其平方標(biāo)準(zhǔn)誤差的倒數(shù)進(jìn)行加權(quán)）。錯(cuò)誤發(fā)現(xiàn)率（FDR）是指對(duì)已發(fā)現(xiàn)但被視為誤報(bào)的關(guān)聯(lián)比例的估計(jì)。這里，我們計(jì)算所謂的Q值，這是聲稱關(guān)聯(lián)可能的最小FDR。正如我們的應(yīng)用章節(jié)所示，我們還測(cè)試了插補(bǔ)的可靠性。當(dāng)存在MAFs低的多態(tài)性時(shí)，這可能是一個(gè)問(wèn)題，因?yàn)镸AFs<5的填充SNP被重新排除在分析之外。
?

數(shù)據(jù)來(lái)源方差異質(zhì)

?
一些表型可能難以測(cè)量或具有很高的測(cè)量變異性。在大型GWA研究中，通常需要協(xié)調(diào)不同的數(shù)據(jù)源并構(gòu)建一個(gè)可比較的表型。因?yàn)橐呀?jīng)收集了大多數(shù)表型。通常很難進(jìn)行完全協(xié)調(diào)的分析。例如，2018年的一項(xiàng)研究考察了受教育年限的遺傳基礎(chǔ)，詳細(xì)考察了表型分類的差異如何影響結(jié)果【15】。
他們得出結(jié)論，在可能的情況下，最詳細(xì)的措施是最好的。然而，在協(xié)調(diào)多個(gè)數(shù)據(jù)集時(shí)，許多GWA通常協(xié)調(diào)到最常見的分類，因此通常最不詳細(xì)的分類。
除第3章詳細(xì)討論的基于祖先的異質(zhì)性外，可能存在諸如出生隊(duì)列、國(guó)家或性別等不一致性。在第3章中，我們展示了即使在荷蘭或英國(guó)等相對(duì)較小的國(guó)家，也存在不同的人口分層模式。GWAS通常會(huì)結(jié)合來(lái)自多個(gè)國(guó)家和歷史時(shí)期的數(shù)據(jù)，以獲得足夠大的樣本量。隱含的假設(shè)是，遺傳學(xué)對(duì)個(gè)體的影響在時(shí)間和地點(diǎn)上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項(xiàng)研究中，我們證明了事實(shí)并非如此，并且結(jié)合這些不同的數(shù)據(jù)集有可能掩蓋差異，尤其是行為表型【16】。在所謂的“大型分析”中，我們證明，當(dāng)數(shù)據(jù)合并時(shí)，對(duì)教育和第一個(gè)孩子出生時(shí)間的遺傳影響中，約有40%是隱藏的或淡化的，這增加到75個(gè)或是出生過(guò)的孩子的數(shù)量。相反，我們發(fā)現(xiàn)與身高相關(guān)的遺傳變異在不同人群中似乎是相同的。性別差異也可能導(dǎo)致異質(zhì)性，這就是為什么一些分析，如與生殖或生殖行為相關(guān)，分別檢查雌性、雄性和匯總結(jié)果【6,17】。顯然，這可以擴(kuò)展到考慮其他類型的異質(zhì)性，如年齡或生命歷程影響或社會(huì)經(jīng)濟(jì)地位。
?

基因型數(shù)據(jù)質(zhì)控

?
對(duì)遺傳數(shù)據(jù)進(jìn)行分析以進(jìn)行GWAS需要了解這種情況下的統(tǒng)計(jì)推斷，但也需要進(jìn)行大量質(zhì)量檢查，稱為質(zhì)量控制（QC）。QC是處理遺傳數(shù)據(jù)的核心方面之一。我們?cè)诘?章中討論了與GWASs相關(guān)的OC（見第8.5節(jié)）。QC對(duì)于可靠的GWAS結(jié)果是必要的，因?yàn)樵蓟蛐蛿?shù)據(jù)本身就存在問(wèn)題（見方框4.2）。例如，您可能有很大比例的個(gè)體缺失數(shù)據(jù)，或者個(gè)體中缺失基因型的比率很高，或者其他與低樣本質(zhì)量相關(guān)的問(wèn)題。正如我們?cè)诘?章中更詳細(xì)地概述的那樣，QC可分為個(gè)體的質(zhì)控和SNP的質(zhì)控
個(gè)體水平QC經(jīng)常檢查（1）DNA數(shù)據(jù)質(zhì)量差，（2）常染色體雜合度高或低，（3）性別信息不一致，（4）重復(fù)或相關(guān)個(gè)體，以及，（5）祖先差異。第二組質(zhì)量控制分析側(cè)重于基因型的數(shù)據(jù)質(zhì)量或我們?cè)诘?章中根據(jù)標(biāo)記OC討論的內(nèi)容。在這里，我們采取幾個(gè)步驟來(lái)消除可能在研究中引入偏見的變體，即：（1）排除低呼叫率SNP；（2）去除等位基因頻率極低的SNP（罕見變體）；（3）識(shí)別和排除極端偏離哈迪-溫伯格平衡的變體；（4）在病例對(duì)照研究中，排除單核苷酸多態(tài)性組間的極端差異通話率；（5）在處理插補(bǔ)SNP的情況下，排除插補(bǔ)質(zhì)量低的變異研究。
?

NHGRI-EBI GWAS目錄

什么是NHGRI-EBI GWAS目錄

?
該領(lǐng)域的新手通常想知道哪些表型已經(jīng)被研究過(guò)，以及已經(jīng)鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄（以下簡(jiǎn)稱目錄），包括所有已發(fā)布GWAS的數(shù)據(jù)，位于https://www./gwas/.它是由美國(guó)生產(chǎn)的。
國(guó)家人類基因組研究所（NHGRI）[19]與歐洲生物信息學(xué)研究所（EBI）[20]。要列入目錄，研究必須符合非常嚴(yán)格的標(biāo)準(zhǔn)（見www./gwas/docs/methods），包括基于陣列的gwas和對(duì)100000多個(gè)全基因組覆蓋的SNP的分析。目錄中報(bào)告的SNP性狀關(guān)聯(lián)是那些p值至少小于1×10-5的性狀關(guān)聯(lián)。目錄研究人員通過(guò)自動(dòng)PubMed搜索找到研究，然后手動(dòng)整理它們以進(jìn)行評(píng)估和納入。所有GWAS性狀都映射到實(shí)驗(yàn)因子本體（EFO）[21]中的術(shù)語(yǔ)，這是一個(gè)用于分子生物學(xué)的變量本體，包括疾病、解剖學(xué)、細(xì)胞類型、細(xì)胞系、化合物和分析信息。例如，如果您搜索“心血管疾病”，目錄將提供該特定特征及其子特征的所有研究和關(guān)聯(lián)的結(jié)果和可視化結(jié)果。在這個(gè)例子中，潛臺(tái)詞可能是“心肌梗死”或“冠心病”？圖4.3顯示了NHGRI-EBI GWAS目錄，說(shuō)明了根據(jù)所有（人類）染色體的基因組位置報(bào)告的遺傳關(guān)聯(lián)。每一條線都鏈接到一個(gè)與p值閾值為p的性狀相關(guān)的基因座≤5×10-8，每個(gè)圓圈都有顏色編碼，以表示一個(gè)獨(dú)特的特征。他們根據(jù)17個(gè)主要特征類別進(jìn)行分組，如消化系統(tǒng)疾病、血液學(xué)測(cè)量、癌癥或藥物反應(yīng)。可以通過(guò)出版物、變體、性狀或基因搜索目錄，這些信息會(huì)隨著新出版物不斷更新。
?

GWAS歷史介紹

?
以下是幾篇關(guān)于GWASs的優(yōu)秀敘述性評(píng)論，描述了基本原理和科學(xué)結(jié)論，并強(qiáng)調(diào)了關(guān)鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】，由于需要合作整合多個(gè)數(shù)據(jù)源，該論文被譽(yù)為外交方面的杰作【23】。
如前所述，要進(jìn)行成功的GWAS，需要大樣本量以提供足夠的統(tǒng)計(jì)能力[25]。這意味著大多數(shù)GWASs發(fā)布到數(shù)據(jù)通常將來(lái)自多個(gè)數(shù)據(jù)源的單獨(dú)分析的匯總結(jié)果匯集到元分析中，以獲得盡可能大的樣本量。過(guò)去幾十年來(lái)，技術(shù)、方法、理論、計(jì)算能力和資金的進(jìn)步極大地改變了GWAS的格局。
在我們之前的工作中，Mills和Rahal（2019）[3]對(duì)2005年至2018年10月的13年間的所有GWASs進(jìn)行了系統(tǒng)和計(jì)算審查。我們使用NHGRI-EBI GWAS目錄，并將其鏈接到PubMed等外部數(shù)據(jù)庫(kù)。重要的是要注意，除了創(chuàng)建此aliving數(shù)據(jù)庫(kù)之外，我們還包括了在公開的GitHub站點(diǎn)上使用的所有代碼(https://github.com/crahal/GWASReview).
換句話說(shuō)，隨著每個(gè)目錄的更新，我們的數(shù)據(jù)庫(kù)以及這里描述的數(shù)字和數(shù)字將隨著時(shí)間的推移自動(dòng)更新。如圖4.4所示，隨著時(shí)間的推移，發(fā)布的GWASs數(shù)量、樣本量、關(guān)聯(lián)數(shù)量和研究的疾病都有顯著增長(zhǎng)。
在上面的面板中，我們看到隨著時(shí)間的推移，發(fā)表的研究數(shù)量大幅增加（根據(jù)樣本大小劃分）。在這里，隨著時(shí)間的推移，我們看到樣本量的驚人增長(zhǎng)，在2018年末和2019年初發(fā)布的樣本有時(shí)包含100多萬(wàn)個(gè)個(gè)體。這些較大的研究主要?dú)w功于英國(guó)生物銀行（約50萬(wàn)個(gè)人）[26、27]，以及參與這項(xiàng)研究的23andMe等大型直接面向消費(fèi)者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關(guān)聯(lián)數(shù)量與GWASs中使用的參與者數(shù)量之間的強(qiáng)正相關(guān)關(guān)系。右下角的面板顯示了獨(dú)特特征數(shù)量的增長(zhǎng)以及發(fā)布GWASs的期刊數(shù)量的增長(zhǎng)。截至2018年10月，我們發(fā)現(xiàn)發(fā)表了3639項(xiàng)研究，涵蓋了5849個(gè)獨(dú)特的研究材料（論文中歸因于性狀的標(biāo)識(shí)符），涉及3508個(gè)獨(dú)特的性狀，映射到2532個(gè)EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費(fèi)或神經(jīng)質(zhì)。每次研究的平均命中數(shù)為15.3，最強(qiáng)風(fēng)險(xiǎn)等位基因的平均p值為1.3729×10-6。55歲左右？報(bào)告的關(guān)聯(lián)符合p的標(biāo)準(zhǔn)閾值≤5×10-8.
?

GWAS多樣性的確定

?
或者是該領(lǐng)域的新研究人員，有必要注意到目前基因樣本缺乏多樣性。正如我們?cè)谇皫渍轮兴懻摰模茉囌咦嫦榷鄻有缘牟町惻c人口分層等技術(shù)問(wèn)題有關(guān)[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】，但也由于文化不信任和數(shù)據(jù)的社會(huì)濫用而拒絕參與研究【32,33】。圖4.5顯示，盡管GWASs的數(shù)量和性狀隨著時(shí)間的推移確實(shí)呈爆炸式增長(zhǎng)，但它仍然主要存在于歐洲祖先群體中，非歐洲群體更常在復(fù)制階段進(jìn)行檢查。這意味著這些非歐洲人群經(jīng)常被用來(lái)測(cè)試歐洲祖先群體會(huì)在其他祖先群體中復(fù)制，因此通常不會(huì)作為這些群體中基本基因發(fā)現(xiàn)的基礎(chǔ)。
圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達(dá)95%的受試者到2017年的88%不等。特別是自201l年以來(lái)，對(duì)亞洲人群的研究一直在強(qiáng)勁而穩(wěn)定地增長(zhǎng)（見方框4.3）。如Mills和Rahal（2019年，表2）[3]所述，這主要是日本、中國(guó)和韓國(guó)人口。隨著時(shí)間的推移，對(duì)非洲人口的研究最少，人們希望非洲基因組變異項(xiàng)目和其他促進(jìn)多樣性的項(xiàng)目將繼續(xù)增加和改變這些趨勢(shì)。
與GWA研究相關(guān)的多樣性幾乎只討論了與祖先相關(guān)的多樣性，但我們?cè)贕WA審查中還發(fā)現(xiàn)，地理、環(huán)境、時(shí)間和人口（如年齡、性別）的多樣性明顯不足【3】。正如我們所注意到的，盡管目前世界人口中約76.2%居住在亞洲或非洲，但72%的基因發(fā)現(xiàn)來(lái)自僅居住在三個(gè)國(guó)家（美國(guó)、英國(guó)和冰島）的參與者。正如我們?cè)诒菊潞推渌胤剿U述的，需要做更多的工作來(lái)了解環(huán)境暴露和地理集中如何影響結(jié)果。例如，在美國(guó)、墨西哥和英國(guó)，有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國(guó)家截然不同如日本、韓國(guó)、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊(duì)列、歷史時(shí)期和生命歷程階段缺乏時(shí)間和人口多樣性。GWASs中最常用的數(shù)據(jù)通常是年齡過(guò)大、社會(huì)經(jīng)濟(jì)地位較高、女性人數(shù)較多的數(shù)據(jù)，而且通常還包括“健康志愿者”的選擇，如英國(guó)生物銀行[35]。
?

結(jié)論和未來(lái)的方向

?
自2005年第一次GWAS以來(lái)，這一研究領(lǐng)域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄，其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領(lǐng)域是如何迅速發(fā)展的，這不僅是因?yàn)檠芯康难芯?、疾病和關(guān)聯(lián)的數(shù)量之多，還因?yàn)闃颖玖康牟粩鄶U(kuò)大。截至2019年，許多大型研究的綜合樣本超過(guò)100萬(wàn)例。然而，我們注意到，這種增長(zhǎng)甚至沒(méi)有跨越不同的祖先或地理群體，大多數(shù)研究仍在歐洲祖先群體中進(jìn)行。尤其是亞洲研究，隨著世界各地（如非洲）的新投資，進(jìn)一步增加了多樣性。一個(gè)新興而令人興奮的研究領(lǐng)域?qū)⑹欠菤W洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應(yīng)該注意到，組建這些大型財(cái)團(tuán)也可能是過(guò)去的事情。
隨著英國(guó)生物銀行（UK Biobank）等大型數(shù)據(jù)集和23andMe等直接面向消費(fèi)者的公司數(shù)量的不斷增加，收集許多小型數(shù)據(jù)隊(duì)列以生成大型樣本的情況似乎越來(lái)越不常見。
讀者還將對(duì)GWA研究所依據(jù)的方法學(xué)有一個(gè)基本的了解。雖然這仍然是一本介紹性的書，但我們希望您已經(jīng)初步了解了這種類型的研究是如何進(jìn)行的，GWASs中統(tǒng)計(jì)推斷的意義，以及為什么以及如何需要更正多次測(cè)試。
本書第8章還介紹了個(gè)人和遺傳標(biāo)記水平上質(zhì)量控制（QC）的重要性以及實(shí)際應(yīng)用。
我們對(duì)GWAS的簡(jiǎn)要?dú)v史表明，這是一個(gè)快速發(fā)展的研究領(lǐng)域。
正如我們?cè)陉P(guān)于倫理問(wèn)題和未來(lái)方向的第14章和第15章中所闡述的，GWAS也并非完全沒(méi)有爭(zhēng)議。有人擔(dān)心，長(zhǎng)長(zhǎng)的優(yōu)先“熱門”名單并沒(méi)有帶來(lái)一些人承諾的個(gè)性化藥物、新療法和風(fēng)險(xiǎn)預(yù)測(cè)工具。盡管超出了本書的支持范圍，但許多GWAS命中的生物學(xué)后續(xù)研究已經(jīng)找到了與已知生物途徑相關(guān)的變體，但也找到了其他未被臨床靶向的變體。
越來(lái)越多的研究不僅在研究常見的變異，也在研究罕見的變異。測(cè)序數(shù)據(jù)的進(jìn)一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領(lǐng)域和新方法。分析和合成GWAS數(shù)據(jù)的新方法也出現(xiàn)了，例如復(fù)雜性狀遺傳學(xué)虛擬實(shí)驗(yàn)室為GWAS后分析所做的工作(https:///updates).
?

練習(xí)：

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-vAJKG9MP-1656835668257)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624102004288.png)]

本章節(jié)包括：

了解全基因組關(guān)聯(lián)研究·
掌握基因分型和測(cè)序陣列的基礎(chǔ)和局限性及其與連鎖不定性和填充的關(guān)系
了解全基因組關(guān)聯(lián)研究研究設(shè)計(jì)、元分析和數(shù)據(jù)分析計(jì)劃
了解全基因組關(guān)聯(lián)研究的統(tǒng)計(jì)推斷、方法和異質(zhì)性的基本方面
掌握質(zhì)量控制的類型
了解NHGRI-EBI GWAS目錄以概述全基因組關(guān)聯(lián)研究
認(rèn)識(shí)到在祖先、地理、時(shí)間，迄今為止全基因組關(guān)聯(lián)研究的人口多樣性及其對(duì)研究的影響
意識(shí)到了這一研究領(lǐng)域的未來(lái)方向