2022年,《Nature communications》期刊發(fā)表的“Short- and long-read metagenomics expand individualized structural variations in gut microbiomes”研究論文中,通過(guò)建立了ONT三代測(cè)序和Illumina二代測(cè)序數(shù)據(jù)混合組裝的新方法,表征了來(lái)自健康人類的數(shù)百個(gè)腸道微生物組中結(jié)構(gòu)變異(SV)的精細(xì)遺傳變異。研究表明長(zhǎng)讀長(zhǎng)顯著提高了宏基因組組裝的質(zhì)量,同時(shí)能夠可靠地檢測(cè)大量擴(kuò)展的結(jié)構(gòu)變異類型(特別是包括大插入和倒位)。 期刊:Nature communications 影響因子:17.694 發(fā)表時(shí)間:2022 DOI:10.1038/s41467-022-30857-9 深入了解腸道微生物群的遺傳變異是了解其功能和對(duì)宿主健康和疾病影響的重要要求。大多數(shù)關(guān)于微生物組的組成和功能的見(jiàn)解都是基于鳥槍法宏基因組測(cè)序數(shù)據(jù)獲得的,該數(shù)據(jù)支持不同種群的單核苷酸多態(tài)性(SNPs)和結(jié)構(gòu)變異(SVs)的分析。ONT相對(duì)較長(zhǎng)的讀長(zhǎng)已經(jīng)被廣泛用于組裝復(fù)雜的真核基因組和解決包括串聯(lián)重復(fù)和大結(jié)構(gòu)變異在內(nèi)的困難區(qū)域。二、實(shí)驗(yàn)設(shè)計(jì) 該研究建立了ONT三代測(cè)序和Illumina二代測(cè)序數(shù)據(jù)混合組裝的新方法,檢測(cè)出了更多包括插入突變、缺失突變和基因倒位在內(nèi)的微生物結(jié)構(gòu)變異(SVs)。同時(shí),對(duì)100個(gè)健康人群橫斷面隊(duì)列和由10個(gè)人群縱向跟蹤隊(duì)列進(jìn)行宏基因組學(xué)和代謝組學(xué)的聯(lián)合分析,具體實(shí)驗(yàn)設(shè)計(jì)如下圖。圖1 實(shí)驗(yàn)設(shè)計(jì) 1、混合測(cè)序提高了人類腸道宏基因組組裝的質(zhì)量 與單獨(dú)使用illumina宏基因組組裝結(jié)果相比,二代+三代的混合組裝方式獲得了更少的contigs數(shù),且組裝總序列數(shù)量多了5.1%,平均N50值提高了2倍多。對(duì)contigs進(jìn)行分箱后得到宏基因組組裝基因組(MAGs),通過(guò)混合組裝方式得到了9,612個(gè)MAGs(每個(gè)樣本20~83個(gè)),平均N50為117kb,去除冗余后得到692個(gè)MAGs(圖2b,2c),其中有623個(gè)在UHGG數(shù)據(jù)庫(kù)中可查詢到,且有208個(gè)質(zhì)量較高的MAGs,其余的67個(gè)MAGs都是新的MAGs。在全面性方面,159個(gè)非冗余的MAGs均包含了23S、16S和5S rRNA三種序列,448個(gè)MAGs(64.74%)至少含有其中一種類型的rRNA序列。相比之下,基于Illumina的組裝方式得到的MAGs數(shù)量少了11%(616個(gè)),平均N50值也約為混合組裝的一半,且只有9個(gè)MAGs(1.46%)含有三種類型的rRNA序列,只有258個(gè)MAGs(41.88%)含有至少一種rRNA序列。圖2 二代+三代組裝方式增強(qiáng)了結(jié)構(gòu)變異(SVs)的檢測(cè)和驗(yàn)證 2、擴(kuò)大腸道微生物群結(jié)構(gòu)變異檢測(cè)范圍 基于ONT的長(zhǎng)序列能發(fā)現(xiàn)更多SVs的特點(diǎn),在本研究中通過(guò)MAGs的比對(duì),發(fā)現(xiàn)多種類型的SVs。對(duì)于189個(gè)菌使用dRep比對(duì),鑒定出了317,558個(gè)插入突變,34,129個(gè)缺失突變和1,373個(gè)基因倒位(圖2d)。其中,大于500 bp的SVs在每種SV類型中占很大比例(圖2e-g)。在插入和缺失的分布中觀察到兩個(gè)峰,因此假設(shè)SVs的兩個(gè)峰是原核基因組中不同生物過(guò)程的結(jié)果,特別是在轉(zhuǎn)座子/原噬菌體和其他移動(dòng)元件的活性方面。鑒于此,隨機(jī)選取插入突變和缺失突變兩個(gè)峰中(140~160bp和1050~1150bp,圖2e)SVs片段進(jìn)行分析,結(jié)果表明兩個(gè)峰內(nèi)的SV之間存在顯著差異,且移動(dòng)元件在短SVs片段中更多,從而推斷短序列的SVs可能與噬菌體整合和其他移動(dòng)元件相關(guān);但并不是所有SVs都有可檢測(cè)的移動(dòng)元件,這只提供了部分和合理的解釋。接下來(lái),通過(guò)重新匹配參考MAG或者M(jìn)AG中含有SV的序列,以進(jìn)一步驗(yàn)證檢測(cè)出的SVs的可靠性。人工檢查最終證實(shí),發(fā)現(xiàn)97%以上隨機(jī)挑選SVs集與ONT多處位置的Reads數(shù)目一致,從而驗(yàn)證了單分子測(cè)序得到特異SVs的可靠性(圖3a),同時(shí)也發(fā)現(xiàn)同一個(gè)體相同細(xì)菌基因SVs的低異質(zhì)性。在本研究的SV數(shù)據(jù)集中,一個(gè)明顯的趨勢(shì)是,細(xì)菌基因組中SVs的頻率在不同的分類群之間是不均勻的。對(duì)種水平(MAGs)的SVs分析發(fā)現(xiàn),SVs總數(shù)與所有樣本中的MAGs數(shù)以及樣本基因組大小成正比。圖3人類腸道微生物群中結(jié)構(gòu)變異(SVs)的驗(yàn)證和表征 3、SV作為腸道微生物組的高度個(gè)性化特征具有功能信息性 對(duì)兩個(gè)人群的189個(gè)MAGs分析發(fā)現(xiàn),不同個(gè)體間每Mb基因組中有16.7的SVs,而同一個(gè)體不同時(shí)間點(diǎn)每Mb基因組中SVs的中位值為0(圖3d)。因此,SVs可以很好地區(qū)分不同個(gè)體之間的細(xì)菌種類和集體腸道微生物群。在種群規(guī)模上對(duì)SV相關(guān)基因功能進(jìn)行了功能富集分析,發(fā)現(xiàn)共有267個(gè)通路與插入突變和缺失突變(圖4a)相關(guān),但未發(fā)現(xiàn)與基因倒位相關(guān)的通路,可能是由于它們的數(shù)量少于插入/缺失。在受影響最大的30條途徑中(根據(jù)富集程度排名)中有19條與代謝相關(guān)的途徑,包括例如“聚糖降解”、“鞘脂代謝”和多種碳水化合物代謝的途徑。圖4人類腸道微生物群中結(jié)構(gòu)變異(SVs)的功能相關(guān)性 4、SVs使細(xì)菌與代謝物和宿主表型的聯(lián)系復(fù)雜化 基于健康人群的橫斷面隊(duì)列中不同樣本的代謝組分析表明,SVs使細(xì)菌種類和代謝物之間的相關(guān)性復(fù)雜化,導(dǎo)致同一細(xì)菌種類內(nèi)的菌株水平功能差異與代謝物顯著相關(guān)。SVs與代謝的關(guān)聯(lián)分析發(fā)現(xiàn),70個(gè)SVs影響了細(xì)菌與74個(gè)糞便代謝物顯著性關(guān)聯(lián),31個(gè)SVs影響了細(xì)菌與66個(gè)尿液代謝物的關(guān)聯(lián),2個(gè)SVs影響了細(xì)菌與2個(gè)血清代謝物顯著關(guān)聯(lián)。12個(gè)SV-affected基因的存在,使得Fusicatenibacter saccharivorans與糞便樣本中新海藻糖代謝物的關(guān)聯(lián)不顯著(圖4d);同樣,33個(gè)SV-affected基因的存在使得Agathobacter rectalis與F1P間不再存在顯著相關(guān)性(圖4e)。在代謝物和受SV影響的基因中,發(fā)現(xiàn)了四種受SV影響的代謝物,共有11個(gè)受SV影響的基因被歸類到四個(gè)KEGG通路,其中SV影響的基因和代謝物都參與,這些發(fā)現(xiàn)顯著表明SV通過(guò)影響相關(guān)基因的功能來(lái)塑造細(xì)菌-代謝物相關(guān)性。為進(jìn)一步研究SVs突變對(duì)表型的影響,選取橫截面隊(duì)列樣本中受SVs影響的兩個(gè)代謝物F1P和neotrehalose與空腹血糖做關(guān)聯(lián)分析,發(fā)現(xiàn)F1P和新海藻糖均與空腹血糖顯著負(fù)相關(guān),且F.saccharivorans與空腹血糖也顯著負(fù)相關(guān),但在SVs亞組中,關(guān)聯(lián)變得不顯著(圖4h);SVs的存在也使得A.rectalis與glucose的關(guān)聯(lián)減弱(圖4i)。因此,研究結(jié)果表明,通過(guò)控制SV的影響,使細(xì)菌豐度和代謝物濃度之間的相關(guān)性復(fù)雜化,結(jié)合SV可以提高細(xì)菌和宿主健康表型相關(guān)分析的檢測(cè)能力。5、在群落水平上,噬菌體和CRISPR結(jié)構(gòu)高度相關(guān) 使用基于機(jī)器學(xué)習(xí)的軟件ProphageHunter對(duì)所有MAGs進(jìn)行分析,得到基因組大小在1,236bp和91,792bp之間的以長(zhǎng)尾噬菌體Siphoviridae和肌尾噬菌體Myoviridae為主的2247個(gè)噬菌體(圖5a)。對(duì)噬菌體元件和細(xì)菌基因組進(jìn)行關(guān)聯(lián)分析,得到1,077個(gè)噬菌體-宿主對(duì)(圖5b),其中只有72個(gè)在MVP數(shù)據(jù)庫(kù)中。相比之下,二代測(cè)序數(shù)據(jù)只檢測(cè)到1815個(gè)噬菌體,其中80.77%在混合組裝中檢測(cè)到。從結(jié)果可以看出,ONT-二代混合組裝數(shù)據(jù)更有利于噬菌體的發(fā)現(xiàn)。除噬菌體外,菌群基因中還有用于抵抗病毒重復(fù)感染的CRISPR-Cas系統(tǒng),以防御噬菌體的再感染。對(duì)所有MAGs的分析發(fā)現(xiàn)了150,058個(gè)CRISPR spacers,平均每個(gè)樣本中1665±560個(gè)spacers,大部分的spacers是新發(fā)現(xiàn)的,只有17,600個(gè)(11.73%)在CRISPROpenDB數(shù)據(jù)庫(kù)出現(xiàn),22,962(15.30%)在西方人群的腸道菌群中出現(xiàn)。相比之下,基于二代測(cè)序的組裝方式,只發(fā)現(xiàn)了9,542個(gè)spacers。因此,新的宏基因組組裝方式具有更強(qiáng)的發(fā)現(xiàn)基因元件(如CRISPR spacers)的能力。對(duì)原噬菌體/CRISPR spacers的β多樣性分析發(fā)現(xiàn),橫截面隊(duì)列中個(gè)體的差異性顯著大于跟蹤隊(duì)列個(gè)體內(nèi)的差異性。群體水平對(duì)原噬菌體和CRISPR spacers的組成分析表明兩者間有較強(qiáng)的共變,揭示原噬菌體和病毒群落組成間相關(guān)性的普氏分析結(jié)果表明,橫截面隊(duì)列中不同個(gè)體間原噬菌體和病毒組成顯著相關(guān)(圖5c)。對(duì)宏基因組數(shù)據(jù)中活性病毒序列的分析發(fā)現(xiàn),2,247個(gè)鑒定出的原噬菌體中有47個(gè)有潛在活性的,從而表明細(xì)菌基因中存在大量無(wú)活性的原噬菌體,從而保持SVs的穩(wěn)定性。圖5 ONT改進(jìn)的宏基因組在人類腸道微生物組中包含高度多樣化的噬菌體和CRISPR間隔區(qū) 綜上所述,本研究建立了基于三代測(cè)序和二代測(cè)序的混合組裝方式,不僅提高了數(shù)據(jù)質(zhì)量,擴(kuò)大了遺傳變異的檢測(cè)范圍,也有利于原噬菌體以及CRISPR spacers等基因元件的發(fā)現(xiàn)。SVs調(diào)節(jié)影響宿主代謝組和健康的細(xì)菌功能,要求對(duì)細(xì)菌對(duì)人類健康和疾病的貢獻(xiàn)進(jìn)行更精細(xì)的研究,而不僅僅是關(guān)注細(xì)菌豐度。將長(zhǎng)讀長(zhǎng)(ONT)進(jìn)一步納入腸道微生物組研究將有助于深入剖析特定時(shí)間的腸道微生物組功能,并加深研究人員對(duì)人類各種腸道疾病軸的理解。參考文獻(xiàn) Short- and long-read metagenomics expand individualized structural variations in gut microbiomes. Nature communications, 2022.
|