
▎藥明康德內(nèi)容團(tuán)隊(duì)編輯 今日,頂尖學(xué)術(shù)期刊《自然》的最新一期如約上線,登上封面的主題是“基因組聚集數(shù)據(jù)庫(gnomAD)”。這份由多國(guó)研究者聯(lián)合發(fā)展起來的公開目錄,是迄今為止最大規(guī)模的人體遺傳變異體數(shù)據(jù)庫,匯集了超過14萬人的基因組測(cè)序或外顯子組測(cè)序數(shù)據(jù)。在本期《自然》雜志上,一共發(fā)表了4篇相關(guān)論文。此外,在Nature Medicine、Nature Communications等子刊上也有同系列的論文。在今天的這篇文章中,學(xué)術(shù)經(jīng)緯團(tuán)隊(duì)將和讀者朋友們一起來了解堪稱人類遺傳學(xué)研究里程碑的gnomAD數(shù)據(jù)庫。 ▲點(diǎn)擊文末“閱讀原文/Read More”,即可訪問《自然》這一專題下的所有文章列表(圖片作者:Sigrid Knemeyer and Hang Yu Lin, SciStories LLC.) 基因測(cè)序技術(shù)的出現(xiàn)讓我們可以讀出一個(gè)人所有的遺傳信息——人類基因組。不過,相比測(cè)出基因序列,更大的挑戰(zhàn)是了解這些基因的生理功能。對(duì)于人類基因組中大多數(shù)基因的功能,我們依然知之甚少。揭示基因功能的一種方法是觀察基因突變后的結(jié)果。這些基因變異體,常常會(huì)讓其編碼產(chǎn)生的蛋白質(zhì)失活,因此被稱為功能喪失型(loss-of-function, LoF)變異體。但這類變異體在人群中較為罕見,這意味著,想要發(fā)現(xiàn)變異體,評(píng)估考察每一種變異體帶來的結(jié)果,就需要非常大的基因組樣本量。這也正是大規(guī)模數(shù)據(jù)庫的意義所在。 基因組聚集數(shù)據(jù)庫(gnomAD)項(xiàng)目,通過各種大型人群測(cè)序項(xiàng)目匯集數(shù)據(jù),來鑒定各種功能喪失型變異體。gnomAD項(xiàng)目之前,科學(xué)家們?cè)?016年公開了外顯子組聚集聯(lián)盟(ExAC),收錄有6萬多個(gè)外顯子組數(shù)據(jù),主要是基因組中與蛋白質(zhì)合成直接相關(guān)的DNA片段(外顯子)。根據(jù)《自然》的一篇概述性文章的介紹,新的gnomAD不僅匯集了125748個(gè)全外顯子組序列,還包含了15708個(gè)全基因組測(cè)序數(shù)據(jù),規(guī)模和范圍都有增加,因此可以系統(tǒng)性地記錄更多樣、更復(fù)雜的基因變異體,并了解蛋白質(zhì)編碼序列以外的變異。 ▲相比ExAC,gnomAD的規(guī)模和范圍更大,可以解讀的基因變異體也更豐富(圖片來源:參考資料[5]) 研究團(tuán)隊(duì)從中總共篩選出了443769個(gè)預(yù)測(cè)的功能喪失型(predicted LoF, pLoF)變異體,預(yù)測(cè)這些變異體會(huì)影響其編碼蛋白的正常運(yùn)作。研究人員進(jìn)而對(duì)這些變異體進(jìn)行了分類,從對(duì)生理機(jī)能幾乎沒影響到導(dǎo)致嚴(yán)重的健康問題,以便更好地發(fā)現(xiàn)造成常見遺傳病和罕見遺傳病的基因。 第二篇文章里,研究人員們側(cè)重于對(duì)一類特別的罕見基因變異體進(jìn)行臨床解讀。為何有些基因理應(yīng)無法容忍某些pLoF變異,但它們卻能夠攜帶這些變異,而看似幾乎沒有影響?研究人員們指出,有些基因在轉(zhuǎn)錄表達(dá)時(shí),由于RNA剪接方式的差異,同一個(gè)基因會(huì)形成不同的轉(zhuǎn)錄本亞型(isoform),而某些外顯子的表達(dá)水平會(huì)非常有限。如果一個(gè)人的體內(nèi)的關(guān)鍵基因里帶有某個(gè)pLoF變異,這個(gè)變異更有可能出現(xiàn)在某個(gè)表達(dá)受限的外顯子中,因此將影響最小化。但另一些轉(zhuǎn)錄本亞型會(huì)導(dǎo)致特定疾病的出現(xiàn)。譬如,一種編碼鈣通道的基因突變,會(huì)導(dǎo)致一種叫Timothy綜合征的罕見病。突變基因的不同轉(zhuǎn)錄本亞型表達(dá)在不同組織里,因而患者出現(xiàn)多系統(tǒng)障礙。為此,研究人員開發(fā)了一種新的指標(biāo)來量化基因變異體的轉(zhuǎn)錄表達(dá),由此建立的數(shù)據(jù)集,可以有助于罕見病的遺傳診斷、分析多系統(tǒng)疾病中的罕見變異體負(fù)擔(dān)。 同系列的第三篇論文探討了如何利用人類功能喪失型變異體數(shù)據(jù)庫識(shí)別候選藥物靶點(diǎn)。研究人員報(bào)告了幾個(gè)關(guān)鍵發(fā)現(xiàn):首先,那些不能容忍有功能喪失型變異體的基因(也就是必需基因),依然可以作為可行的成功靶點(diǎn)。去設(shè)計(jì)抑制劑的開發(fā)。具體來看,當(dāng)發(fā)現(xiàn)某些個(gè)體在特定基因上攜帶了兩個(gè)pLoF變異體時(shí),這個(gè)基因可能會(huì)是一個(gè)好的藥物靶點(diǎn)。;其次,大部分基因中功能喪失型變異體十分罕見,研究人表明在推斷這類變異體時(shí)會(huì)有很多誤判,因此要收集到確切證據(jù),需要比gnomAD樣本量大1000倍的隊(duì)列來進(jìn)行驗(yàn)證;第三,我們雖然可以對(duì)變異體進(jìn)行自動(dòng)的標(biāo)注,但為了去除人為引入的誤差,我們依舊需要人工對(duì)其進(jìn)行檢查。 《自然》同時(shí)發(fā)表的第四篇論文中,研究人員們分析了gnomAD數(shù)據(jù)庫中的近1.5萬個(gè)全基因組測(cè)序數(shù)據(jù),創(chuàng)建了一個(gè)結(jié)構(gòu)變異資源庫。結(jié)構(gòu)變異(SV)指的是染色體上有大片段DNA發(fā)生了重新排列,有缺失、重復(fù)、插入、易位甚至是顛倒方向等多種類型。這類變異是很多遺傳病和癌癥的重要誘因。研究人員指出,這個(gè)包含43.3萬種SV的豐富資源庫,“在人群遺傳學(xué),疾病關(guān)聯(lián)研究和診斷篩查中具有廣泛的用途”。《自然》同期的一篇評(píng)論文章指出,這一大規(guī)模的基因組測(cè)序和分析工作產(chǎn)生了迄今為止最全面的數(shù)據(jù)和工具來了解人類的遺傳變異。gnomeAD已經(jīng)將這些數(shù)據(jù)和工具公開。這份寶貴的遺傳資源,將改變我們解讀個(gè)體基因組的方式,為我們理解人類的生物學(xué)特征和疾病,評(píng)估罕見和常見遺傳病,提供重要信息。
|