2021精選二十大生物醫(yī)學(xué)領(lǐng)域熱門(mén)行研報(bào)告
2020不該錯(cuò)過(guò)的四十大醫(yī)學(xué)領(lǐng)域熱門(mén)行研報(bào)告 2021全球新一代測(cè)序 (NGS)臨床應(yīng)用及市場(chǎng)報(bào)告
2021全球腫瘤診斷市場(chǎng)報(bào)告
如果想知道之所以每個(gè)人都是獨(dú)一無(wú)二個(gè)體的原因,首先,就要獲得構(gòu)成人類(lèi)的 “遺傳密碼”(DNA),也就是四種堿基A、G、C、T排列順序;其次就是找到“破譯本”——從DNA到蛋白的基因表達(dá)圖譜。這樣的破譯過(guò)程已經(jīng)可以通過(guò)基因組測(cè)序及一系列相關(guān)的技術(shù)實(shí)現(xiàn)。 《Nature》雜志上發(fā)表了一系列文章,濃墨重彩地描述了“基因測(cè)序20年的各個(gè)里程碑”,主要介紹在過(guò)去的20年中,那些令人激動(dòng)的基因測(cè)序相關(guān)技術(shù)的發(fā)展史,以及不斷擴(kuò)大的科學(xué)與社會(huì)應(yīng)用。圖1 基因序列是指組成DNA的四種堿基A、G、C、T排列順序基因測(cè)序技術(shù)的巨大潛力從誕生就被科學(xué)界迅速認(rèn)可,之后成為了生物醫(yī)學(xué)研究領(lǐng)域中最具影響力的工具之一。1997發(fā)明了Walter Gilbert測(cè)序法和Sanger測(cè)序法。僅僅3年之后,1980年諾貝爾化學(xué)獎(jiǎng)就被授予了Walter Gilbert和Frederick Sanger。而到80年代末,自動(dòng)化Sanger測(cè)序儀已經(jīng)可以實(shí)現(xiàn)每天1000個(gè)序列的基因測(cè)序。在測(cè)序技術(shù)和生物信息學(xué)的發(fā)展推動(dòng)下,90年代科學(xué)家們首次實(shí)現(xiàn)了對(duì)特定細(xì)菌、單細(xì)胞和多細(xì)胞真核生物的全基因組測(cè)序。圖2 第一代sanger測(cè)序技術(shù)從被發(fā)明到20世紀(jì)初,Sanger測(cè)序法在很長(zhǎng)一段時(shí)間內(nèi)都是基因測(cè)序的主流技術(shù)。利用此方法科學(xué)家取得了非常耀眼的成績(jī)——包括測(cè)得了人類(lèi)基因組全序列和表達(dá)譜的“人類(lèi)基因組計(jì)劃”。我們選擇了“人類(lèi)基因組計(jì)劃”作為“基因測(cè)序20年里程碑系列”的開(kāi)篇。在高通量、并行化的第二代測(cè)序技術(shù)(Sanger測(cè)序法被稱(chēng)為第一代測(cè)序技術(shù))被發(fā)明并實(shí)現(xiàn)商業(yè)化之后(里程碑2),基因測(cè)序技術(shù)被逐漸普及到更多的實(shí)驗(yàn)室和企業(yè)中,并正式步入了騰飛時(shí)代。在此系列中,測(cè)序技術(shù)和信息技術(shù)共同推動(dòng)了一些關(guān)鍵應(yīng)用研究項(xiàng)目的落地實(shí)施。回望過(guò)去,我們也認(rèn)識(shí)到科學(xué)是人類(lèi)團(tuán)結(jié)合作的成果。每一個(gè)突出的里程碑式成果都是建立在如山如海般的前人努力之上。技術(shù)的突破和科學(xué)的發(fā)展與應(yīng)用也是相輔相成的。感謝所有對(duì)基因測(cè)序技術(shù)做出貢獻(xiàn)的科學(xué)工作者們。新世紀(jì)基因測(cè)序技術(shù)20年大事件年表2001年,人類(lèi)基因組序列草圖首次發(fā)布(里程碑1)2001年人類(lèi)基因組草圖的發(fā)布是一項(xiàng)具有里程碑意義的成就??茖W(xué)家們第一次可以逐個(gè)堿基地研究每個(gè)人類(lèi)染色體鏈。研究人員便可以開(kāi)始理解各個(gè)基因的排序方式,以及周?chē)堑鞍踪|(zhì)編碼DNA的結(jié)構(gòu)和組織方式。盡管取得了令人驚奇的進(jìn)步,但基因組草圖仍然不完整,缺少了1.5億個(gè)堿基。在過(guò)去的幾年中,技術(shù)的進(jìn)步使研究人員得以加入到基因組草圖中,并最終在2020年完成對(duì)染色體的完全測(cè)序。 2004年,宏基因組學(xué)的誕生(里程碑2)傳統(tǒng)微生物的研究通常需要通過(guò)培養(yǎng)來(lái)分離單個(gè)菌株。然而,微生物學(xué)家很早就發(fā)現(xiàn),很多種自然界中存在的微生物無(wú)法在實(shí)驗(yàn)室中培養(yǎng),這意味著,使用培養(yǎng)的研究策略,只能夠捕捉到自然界中微生物多樣性的1%,那么用什么手段才能夠研究那剩余的99%?在2004年,兩項(xiàng)劃時(shí)代的研究通過(guò)對(duì)環(huán)境中采集的包含多種不同微生物的樣本進(jìn)行測(cè)序,成功構(gòu)建了樣本中包含的不同微生物的基因組序列。這兩項(xiàng)研究表明,不用單獨(dú)分離和培養(yǎng)一種微生物,就可以通過(guò)DNA測(cè)序技術(shù),對(duì)復(fù)雜微生物群體中不同微生物進(jìn)行分類(lèi),并且發(fā)現(xiàn)未知的微生物。它們揭示了宏基因組學(xué)(metagenomics)的巨大潛力。 2005年,新一代基因測(cè)序技術(shù)(里程碑3)新一代測(cè)序技術(shù)應(yīng)運(yùn)而生。454公司于2005年推出Genome Sequencer 20 System,這是第一個(gè)基于焦磷酸測(cè)序原理的高通量基因組測(cè)序系統(tǒng),這也是核酸測(cè)序技術(shù)發(fā)展史上里程碑式的事件。以2005年454技術(shù)發(fā)布為標(biāo)志,新一代測(cè)序技術(shù)開(kāi)始登上舞臺(tái)。
目前,數(shù)千臺(tái)新一代測(cè)序儀分布在全球逾百家科研機(jī)構(gòu)與公司,被廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)、農(nóng)學(xué)等各個(gè)領(lǐng)域的科研、教學(xué)與應(yīng)用中。 2007年,結(jié)合位點(diǎn)分析法(ChIP-seq)—從基因到蛋白質(zhì)的研究方法(里程碑4)染色質(zhì)免疫沉淀(Chromatin immunoprecipitation ,ChIP)技術(shù)誕生很早,由Orlando等人創(chuàng)立于1997年,發(fā)表于2000年,先利用Microarray技術(shù) ChIP-chip,后2007年利用DNA sequencing技術(shù) ChIP-seq。ChIP-seq的目的是研究感興趣蛋白在基因組上的結(jié)合位點(diǎn),可以用來(lái)鑒定轉(zhuǎn)錄因子(transcription factor, TF)的結(jié)合位點(diǎn)或者轉(zhuǎn)錄后更廣范圍的組蛋白修飾(histone marks),一般與調(diào)控元件有關(guān)。 2008年,一種新的測(cè)序方法被應(yīng)用于人類(lèi)基因組測(cè)序(里程碑5)2008年,在《自然》雜志上發(fā)表的兩篇論文使用下一代基因測(cè)序技術(shù)(NGS),生成了一名非裔個(gè)體和一名亞裔個(gè)體的基因組。在這兩項(xiàng)研究中,研究人員使用了稱(chēng)為Solexa測(cè)序的下一代測(cè)序技術(shù)。而在2001年發(fā)布的第一版人類(lèi)基因組圖譜耗資3億美元,耗時(shí)十幾年。而使用下一代測(cè)序技術(shù),在2008年可以在幾周內(nèi)完成對(duì)一個(gè)人類(lèi)基因組的測(cè)序,將測(cè)序成本降低到50萬(wàn)美元。2008年,癌癥相關(guān)的基因測(cè)序揭示了基因突變與癌癥的相關(guān)性(里程碑6);2008年,人類(lèi)發(fā)布了首個(gè)急性髓系白血?。ˋML)樣本的全基因組序列。在這項(xiàng)研究中,對(duì)一名50多歲的AML患者的腫瘤細(xì)胞和正常皮膚細(xì)胞樣本進(jìn)行了全基因組測(cè)序。科學(xué)家使用下一代測(cè)序技術(shù),通過(guò)將癌細(xì)胞的基因組序列和正常細(xì)胞的基因組序列進(jìn)行比較,研究人員發(fā)現(xiàn)了在癌細(xì)胞中的8個(gè)全新基因突變。2008年,從基因短序列到整個(gè)基因組的重建—基因組裝配技術(shù)的發(fā)展(里程碑7)基因組蘊(yùn)藏著生命的奧秘,人類(lèi)自從發(fā)現(xiàn)DNA,發(fā)明DNA測(cè)序手段,就在孜孜不倦的破譯各種生物的基因組。一個(gè)完整的、精確的參考基因組能夠?yàn)槿祟?lèi)疾病研究、動(dòng)植物遺傳育種研究等方面打下堅(jiān)實(shí)的基礎(chǔ)。Contig N50可以作為基因組組裝結(jié)果好壞的一個(gè)最直接的評(píng)判標(biāo)準(zhǔn)。隨著測(cè)序技術(shù)的發(fā)展,基因組組裝最明顯的變化是Contig N50指標(biāo)的提升。在二代測(cè)序組裝時(shí)代,Contig N50一般幾kb-幾百kb,三代測(cè)序技術(shù)的發(fā)展,使其提升到數(shù)Mb乃至上百M(fèi)b的水平。2009年,長(zhǎng)序列基因測(cè)序技術(shù)的出現(xiàn)與發(fā)展(里程碑8)理想的測(cè)序方法應(yīng)該是對(duì)原始DNA模板進(jìn)行直接、準(zhǔn)確的測(cè)序,并且不受讀長(zhǎng)限制。早在20世紀(jì)80年代,研究人員就開(kāi)始為了實(shí)現(xiàn)這個(gè)目標(biāo)而努力,隨著納米、芯片、精密加工、光學(xué)電子、酶工程等技術(shù)的有效發(fā)展,以不經(jīng)擴(kuò)增的單分子、長(zhǎng)讀長(zhǎng)的新一代測(cè)序逐漸走進(jìn)大眾視線。2009年,全外顯子組測(cè)序被首次應(yīng)用于單基因疾病(里程碑9)簡(jiǎn)單來(lái)說(shuō),外顯子組就是遺傳代碼中蛋白質(zhì)編碼的組分,占整個(gè)基因組的1%-2%。測(cè)序儀每跑一次僅能讀取一定數(shù)量的堿基,但通過(guò)測(cè)序外顯子組,研究人員能更快地生成更多的堿基。與全基因組相比,它也可以用更低的成本做出更好的分辨率。2009年,第一次應(yīng)用外顯子組測(cè)序在Freeman-Sheldon綜合征患者中發(fā)現(xiàn)致病基因MYH3突變。2009年,高通量測(cè)序?yàn)榛A(chǔ)的染色質(zhì)構(gòu)想捕捉技術(shù)(Hi-C)揭示了基因組的三維架構(gòu)(里程碑10)隨著高通量測(cè)序的發(fā)展,我們對(duì)于生物的基因組序列及其上的功能元件都有了比較深入的了解。人類(lèi)的基因組一共只有23對(duì)染色體,卻由總共30億個(gè)堿基對(duì)串聯(lián)而成,如此長(zhǎng)的DNA必然要經(jīng)過(guò)層層折疊才能塞到細(xì)胞核中,然而我們對(duì)于基因組的高維結(jié)構(gòu)卻知之甚少?;蚪M并不是散亂地分布在細(xì)胞核中,而是有序地層層折疊,這使得線性距離非常遠(yuǎn)的DNA片段可能在空間上相互作用。高維基因組的研究目前最成熟的技術(shù)則是染色質(zhì)構(gòu)象捕獲(Chromosome conformation capture, 簡(jiǎn)稱(chēng)3C)及其衍生技術(shù),2009年,由3C技術(shù)的發(fā)明人Dekker教授課題組提出了3C的高通量版本Hi-C,于是才有了成熟的全基因組范圍的染色質(zhì)互作分析方法,同時(shí)也為染色體高維結(jié)構(gòu)的分析提供了可能。2009年,單細(xì)胞測(cè)序技術(shù)提供了增加了細(xì)胞異質(zhì)性研究的新視角(里程碑11)基于對(duì)組織樣本的基因表達(dá)檢測(cè)只能夠發(fā)現(xiàn)不同細(xì)胞類(lèi)型產(chǎn)生的平均結(jié)果,這可能導(dǎo)致研究人員忽略特定細(xì)胞類(lèi)型的表現(xiàn)。單細(xì)胞測(cè)序(Single-cell sequencing)是指獲取單個(gè)細(xì)胞遺傳信息的測(cè)序技術(shù),即對(duì)單個(gè)細(xì)胞水平上,對(duì)基因組或轉(zhuǎn)錄組進(jìn)行提取擴(kuò)增和高通量測(cè)序分析,在2009年,Nature Methods發(fā)布了首個(gè)對(duì)單個(gè)小鼠卵裂球(blastomere)進(jìn)行的全轉(zhuǎn)錄子組研究。2010年,古代DNA測(cè)序技術(shù)及應(yīng)用(里程碑12)由于傳統(tǒng)PCR技術(shù)很難正確擴(kuò)增含量極低的內(nèi)源DNA片段,導(dǎo)致部分古DNA實(shí)驗(yàn)結(jié)果不可重復(fù),所以針對(duì)人類(lèi)的古DNA研究方法在該階段依舊受到極大的質(zhì)疑,隨著二代測(cè)序技術(shù)的誕生,古DNA研究迎來(lái)了高速發(fā)展的時(shí)代。由于二代測(cè)序技術(shù)能夠得到極短的DNA片段信息(這與古DNA的特征相似),所以實(shí)驗(yàn)人員可以進(jìn)行測(cè)序,并通過(guò)生物信息技術(shù)進(jìn)行拼接,來(lái)獲得可靠的古DNA數(shù)據(jù)。實(shí)驗(yàn)方法也在這一階段不斷被革新,2010年拉斯馬森(M. Rasmussen)等報(bào)道了4000多年前的愛(ài)斯基摩人基因組,格林(R. E. Green)等依據(jù)3個(gè)尼安德特人樣品繪制了尼安德特人的基因組草圖。隨后,越來(lái)越多的古人類(lèi)基因組被公布出來(lái),如丹尼索瓦人、早期現(xiàn)代人(包括田園洞人、Ust'-Ishim和Oase1)等,研究也逐漸深入化和多元化。這些研究共同推動(dòng)了古人類(lèi)DNA研究不斷前進(jìn),為古人類(lèi)遷徙路線及人群間基因交流的探索提供了遺傳學(xué)支持。 2012年,通過(guò)大規(guī)模的基因測(cè)序?qū)θ祟?lèi)遺傳變異進(jìn)行編碼研究(里程碑13)人類(lèi)基因組計(jì)劃(Human Genome Project, HGP)是科學(xué)家揭秘人類(lèi)基因組圖譜、為人類(lèi)遺傳以及相關(guān)疾病的研究提供了先驅(qū)力量以及藍(lán)圖的里程碑式工作,被譽(yù)為生命科學(xué)的“登月計(jì)劃”。人類(lèi)基因組既包括蛋白質(zhì)編碼基因,也包括控制這些基因何時(shí)表達(dá)以及表達(dá)到何種程度的調(diào)控信息。雖然人類(lèi)大多擁有相同的基因和調(diào)控元件,但潛在的基因序列和地球上的人一樣多樣化,每個(gè)個(gè)體的基因組都是獨(dú)一無(wú)二的。2012年,DNA元件百科全書(shū)(ENCODE)構(gòu)建人類(lèi)基因組全面的功能元件清單,包括在蛋白質(zhì)和RNA水平上起作用的元件,以及控制基因活躍的細(xì)胞和環(huán)境的調(diào)控元件(里程碑14)在2003年,名為DNA元件百科全書(shū)(Encyclopedia of DNA Elements, ENCODE)的研究項(xiàng)目開(kāi)始啟動(dòng)。在2012年,這一項(xiàng)目的第二階段(ENCODE 2)完成,研究團(tuán)隊(duì)在《自然》,Genome Research和Genome Biolgoy上發(fā)表了30篇論文。他們不但確認(rèn)了20687個(gè)編碼蛋白的基因,而且在147種不同的細(xì)胞類(lèi)型中描繪了它們的表達(dá)模式。研究人員還發(fā)現(xiàn)了超過(guò)7萬(wàn)個(gè)啟動(dòng)子和接近40萬(wàn)個(gè)增強(qiáng)子區(qū)域,為基因組中接近80%的序列找到了至少一種功能。 2014年,泛基因組捕獲一個(gè)物種的許多代表的遺傳變異(里程碑15)泛基因組包括了一個(gè)物種所含有的核心基因組(Core genome)和非必須基因組(Dispensable genome)。其中,核心基因組由所有樣本中都存在的序列組成,一般與物種生物學(xué)功能和主要表型特征相關(guān),反映了物種的穩(wěn)定性;非必須基因組由僅在單個(gè)樣本或部分樣本中存在的序列組成,一般與物種對(duì)特定環(huán)境的適應(yīng)性或特有的生物學(xué)特征相關(guān),反映了物種的特性。泛基因組(Pan-genomes)的開(kāi)發(fā)可以更全面的捕獲物種基因庫(kù)中包含的基因組變異信息,有利于物種育種及相關(guān)研究的進(jìn)行。  2017年,多種測(cè)序技術(shù)結(jié)合得到完整基因組序列(里程碑16)人類(lèi)基因組圖譜的最新版本于2013年發(fā)布,被稱(chēng)為GRCh38。從那時(shí)起,它就被反復(fù)修補(bǔ)。至今,它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區(qū)域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏于大量重復(fù)基因拷貝的長(zhǎng)序列中。兩種長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)正在填補(bǔ)這些缺口。加州生物技術(shù)公司太平洋生物科學(xué)(Pacific Biosciences,以下簡(jiǎn)稱(chēng)PacBio)使用一種成像系統(tǒng)來(lái)直接讀取數(shù)十萬(wàn)甚至數(shù)百萬(wàn)條平行DNA鏈,每條鏈包含數(shù)千個(gè)堿基。另一種技術(shù)是由英國(guó)公司牛津納米孔技術(shù)(Oxford Nanopore Technologies)實(shí)現(xiàn)商業(yè)化,它將DNA鏈穿過(guò)微小的蛋白孔或納米孔,測(cè)量核苷酸穿過(guò)孔道時(shí)電流的細(xì)微變化,進(jìn)而讀取數(shù)萬(wàn)至數(shù)十萬(wàn)個(gè)堿基。2020年,人類(lèi)染色體首次無(wú)間隙得以端粒對(duì)端粒的方式進(jìn)行組裝(里程碑17)整整20年前,2001年,人類(lèi)基因組工作草圖發(fā)布。這是人類(lèi)基因組計(jì)劃的重要里程碑之一,也是我們了解人類(lèi)基因組的關(guān)鍵時(shí)刻,它為我們對(duì)人類(lèi)生物學(xué)和疾病基因組基礎(chǔ)的理解鋪平了道路。自此,我們邁入了基因組學(xué)的時(shí)代。 但是,當(dāng)時(shí)科學(xué)家的任務(wù)還沒(méi)有結(jié)束:還有一部分基因組沒(méi)有被測(cè)序,也存在一些序列信息可能不準(zhǔn)確的問(wèn)題。技術(shù)限制意味著,人類(lèi)基因組序列的原始草圖只涵蓋了基因組“常染色質(zhì)”的部分。人類(lèi)基因組中有約92%為常染色質(zhì),大多數(shù)基因都是在這里發(fā)現(xiàn)的,是制造RNA和蛋白質(zhì)等基因產(chǎn)物最為活躍的部分。到2013年,基因組參考聯(lián)盟(GRC)發(fā)布了更新的人類(lèi)參考基因組GRCh38。盡管經(jīng)過(guò)數(shù)十年的努力,它已經(jīng)是迄今為止最精確和完整的脊椎動(dòng)物基因組之一,但它仍不是一個(gè)“一字不差”的完整基因組,大約還差8%的序列尚未被測(cè)序。 直到2020年,遺傳學(xué)家Karen Miga帶領(lǐng)團(tuán)隊(duì)借助新的技術(shù)和方法,首次成功挑戰(zhàn)了對(duì)人類(lèi)X染色體的“從頭到尾”(從端粒到端粒)的完整測(cè)序,其中不存在任何缺口,其精確度達(dá)到了前所未有的水平。
|