來源:丁香學(xué)術(shù) 2021-11-25 08:17 遺傳變異特征的解析和遺傳變異譜的構(gòu)建是研究人口、人口歷史、醫(yī)學(xué)遺傳學(xué)和基因型-表型關(guān)聯(lián)的基礎(chǔ)。自 2003 年第一次人類基因組信息發(fā)布以來,許多大規(guī)模的全基因組測(cè)序 (WGS) 項(xiàng)目率先在西方國家啟動(dòng),生成了大量和多樣化的人口遺傳變異資源。這是因?yàn)閺拇箨?duì)列 WGS 資源構(gòu)建單倍型參考面板是促進(jìn)全基因組關(guān)聯(lián)研究(GWASs)
遺傳變異特征的解析和遺傳變異譜的構(gòu)建是研究人口、人口歷史、醫(yī)學(xué)遺傳學(xué)和基因型-表型關(guān)聯(lián)的基礎(chǔ)。 自 2003 年第一次人類基因組信息發(fā)布以來,許多大規(guī)模的全基因組測(cè)序 (WGS) 項(xiàng)目率先在西方國家啟動(dòng),生成了大量和多樣化的人口遺傳變異資源。這是因?yàn)閺拇箨?duì)列 WGS 資源構(gòu)建單倍型參考面板是促進(jìn)全基因組關(guān)聯(lián)研究(GWASs)的一種有意義且成本效益高的方法。然而,直到目前,作為世界上最大的民族,中國漢族人群仍然沒有具體的參考標(biāo)準(zhǔn)。 盡管前期的一些研究也關(guān)注過中國人口,但這些研究要么是樣本量有限,要么是地理覆蓋范圍不夠廣,或者是基因組覆蓋深度較淺,這些都限制了其作為參考的可信度。 在 2020 年針對(duì)中國人的一項(xiàng)研究中,ChinaMAP 項(xiàng)目提供了超過 1 萬人的高深度(40X)全基因組測(cè)序數(shù)據(jù)和表型的系統(tǒng)性分析,但是該項(xiàng)目聚焦代謝性疾病,并且他們并未根據(jù)該研究構(gòu)建單倍型參考面板。漢族人口是東亞乃至世界上最大的民族,約占全球人口的 20%,占中國大陸人口的 92%。因此,建立完整的、高質(zhì)量的漢族群體遺傳變異數(shù)據(jù)庫和參考圖譜勢(shì)在必行,這樣一種資源將有助于解析人口結(jié)構(gòu)和人口歷史,并促進(jìn)世界上最大人口的遺傳研究。 中國科學(xué)院生物物理研究所徐濤院士團(tuán)隊(duì)和何順民研究員團(tuán)隊(duì)合作在 Cell Reports 發(fā)表了題為 NyuWa Genome resource: A deep whole-genome sequencing-based variation profile and reference panel for the Chinese population 的文章,系統(tǒng)介紹了一種被稱之為 NyuWa(女媧)的基因組資源,數(shù)據(jù)來自于 23 個(gè)中國省份中的約 3000 人的深度 WGS。 該數(shù)據(jù)資源是一個(gè)高質(zhì)量的公開可用的中國人口特定的參考信息,目前在國際上具有最佳的漢族人口相關(guān)研究的參考價(jià)值,也為中國人群的遺傳和疾病研究提供有用和可靠的支持。 主要研究內(nèi)容 基于大型中國人口隊(duì)列的深度 WGS 數(shù)據(jù) NyuWa 基因組資源包括 2999 個(gè)不同中國樣本的高測(cè)序深度的 WGS 數(shù)。樣本來自中國 23 個(gè)行政區(qū)域,包括 17 個(gè)省、2 自治區(qū)和 4 個(gè)直轄市。大部分樣本來自上海、廣東和北京。經(jīng)過基因組比對(duì)和去除重復(fù)后,實(shí)際基因組覆蓋深度的中位數(shù)為 26.23?;谛匀旧w的基因組覆蓋率,每個(gè)受試者的性別都可以被清楚地識(shí)別,共包括 1335 名女性和 1664 名男性。 基于 NyuWa 數(shù)據(jù)發(fā)現(xiàn)了 2500 萬個(gè)新變體 經(jīng)過嚴(yán)格的質(zhì)量控制,研究人員共鑒定出 7106 萬 SNPs 和 819 萬 InDels,并對(duì)其進(jìn)行了全面注釋。通過與其他變異信息公共數(shù)據(jù)庫相比,NyuWa 數(shù)據(jù)集包含 2500 萬個(gè)新的變異,包括 2310 萬個(gè) SNP(32.5%)和 190 萬位點(diǎn)插入(23.3%)。進(jìn)一步的分析發(fā)現(xiàn),蛋白質(zhì)編碼基因共存在 3190 萬個(gè)變異位點(diǎn),其中 85.7 萬個(gè)位于 CDS 區(qū)域,110 萬個(gè)位于 UTR,3000 萬個(gè)位于內(nèi)含子。lncRNA 外顯子區(qū)共有 478 萬個(gè)變異。 隨后,為了評(píng)估 NyuWa 參考面板的基因型推演性能,研究團(tuán)隊(duì)使用來自人類基因組多樣性計(jì)劃(the Human Genome Diversity Project, HGDP)的亞洲各個(gè)人群芯片基因分型數(shù)據(jù)和高覆蓋率 WGS 數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。通過比較分析,他們發(fā)現(xiàn) NyuWa 在對(duì)中國人口相關(guān)的基因組研究中優(yōu)于其他現(xiàn)存的參考數(shù)據(jù)庫。同時(shí),NyuWa 在中國南方和北方人群中均適用。 變體的臨床價(jià)值 為了進(jìn)一步說明 NyuWa 資源在改善人類健康方面的價(jià)值,他們進(jìn)一步評(píng)價(jià)了其在基因突變相關(guān)疾病研究和醫(yī)學(xué)應(yīng)用方面的應(yīng)用價(jià)值。正如預(yù)期的那樣,NyuWa 和公共數(shù)據(jù)集中的大多數(shù)致病變異是一致的,均屬于罕見變異。致病性變體通常頻率很低,而那些等位基因頻率較高的致病性變體可能與常見疾病有關(guān)。 此外,他們還發(fā)現(xiàn)了一些由 ClinVar 數(shù)據(jù)庫對(duì)致病性的解釋相互矛盾的變體,這些變體在 NyuWa 資源中顯示出更高的等位基因頻率。例如,以 1% 的等位基因頻率作為閾值,兩種變體 rs182677317 和 rs369849556 被注釋為與罕見疾病睫狀體運(yùn)動(dòng)障礙相關(guān),而 NyuWa 數(shù)據(jù)集中的高等位基因頻率(>1%)則表明這些變體可能不是致病性的。因此,這些結(jié)果表明,NyuWa 數(shù)據(jù)集中的變異等位基因頻率可以為疾病相關(guān)變異的研究提供額外的參考。 他們還評(píng)估了 ADME 核心基因的已知藥物基因組位點(diǎn)的等位基因頻率,而這可能影響中國不同省份和全球地區(qū)藥物的療效和安全性。結(jié)果發(fā)現(xiàn)一些變異在中國不同地區(qū)和世界不同人群中具有明顯的等位基因頻率差異。 例如,世界衛(wèi)生組織推薦用于治療結(jié)核病的藥物異煙肼主要由 NAT2 酶(N-乙酰轉(zhuǎn)移酶 2)乙?;x,代謝的速率由遺傳因素決定,代謝慢的患者發(fā)生肝毒性的風(fēng)險(xiǎn)更高。NAT2 存在多個(gè) SNP 位點(diǎn),形成不同的等位基因,其中一種稱為 NAT2*12,為快乙酰化等位基因。研究人員發(fā)現(xiàn)在中國不同省份和東亞地區(qū)檢測(cè)到 NAT2*12 的等位基因頻率一致較高(接近 100%),而在其他人群中頻率則較低。這表明中國人群在使用異煙肼前檢測(cè) NAT2*12 并不像其他人群那么必要。 而對(duì)于其他多種基因的檢測(cè),其等位基因的頻率在中國不同省份之間存在差異,因此,建議在某些藥物用于個(gè)體化治療之前,進(jìn)行基因檢測(cè)。 蛋白編碼基因和 lncRNA 基因功能缺失的變異 功能缺失變異對(duì)基因功能有深刻的影響,并為臨床基因組解釋提供信息。在本研究中,他們篩選了高可信度的功能喪失型蛋白質(zhì)截短變異體(Protein-Truncating Variants, PTVs),特別是那些新鑒定的變異體。他們?cè)?7696 個(gè)基因中發(fā)現(xiàn)了 18711 個(gè) PTVs。 進(jìn)一步分析發(fā)現(xiàn)在 NyuWa 數(shù)據(jù)集中共鑒定了 9994 個(gè)新的 PTVs,其中純合子數(shù)目為 21 個(gè)。另外,在 906 個(gè)癌癥相關(guān)基因中的 385 個(gè)中檢測(cè)到 1138 個(gè) PTVs,其中 636 個(gè)為新型 PTVs。比如說,在 BRCA2、BRCA1、PMS1、TP53 和 MSH6 中鑒定了 5 種新型 PTVs 和 48 種已知 PTVs。 由于 lncRNA 不包含 CDS 區(qū)域,因此剪接變異成為 lncRNA 功能缺失變異中最重要的一類。剪接變異可能導(dǎo)致內(nèi)含子保留或外顯子跳躍,從而極大地改變了 lncRNA 的序列和結(jié)構(gòu)。NyuWa 數(shù)據(jù)集共發(fā)現(xiàn) 3544 個(gè) lncRNA 基因中的 3793 個(gè)剪接變異。包括 Ensembl 數(shù)據(jù)庫中 1287 個(gè) lncRNA 基因的 1454 個(gè)剪接變異和 NONCODE 數(shù)據(jù)庫中 2257 個(gè) lncRNA 基因的 2339 個(gè)剪接變異。據(jù)報(bào)道,230 個(gè) lncRNA 基因?qū)?xì)胞生長至關(guān)重要,他們也在其中 20 個(gè) lncRNA 基因中發(fā)現(xiàn)了 22 個(gè)剪接變體,等位基因頻率大于 0.1% 的 lncRNA 剪接變異所占比例小于所有的 lncRNA 剪接變異,表明剪接變異體可以真正影響這些 lncRNAs 的功能。 因此,NyuWa 數(shù)據(jù)集中發(fā)現(xiàn)的蛋白編碼和非編碼基因的功能缺失變異可能與疾病的病因?qū)W或遺傳傾向有關(guān),這將為疾病和遺傳學(xué)研究提供新的見解。(生物谷Bioon.com)
![]() |
|