最近,越來越多的證據(jù)表明:自然環(huán)境(如海洋、土壤等)中的微生物群落功能(functional)組成而非物種(taxonomic)組成與環(huán)境因子密切相關(guān);換言之,相似環(huán)境中的微生物群落功能更相似,而行使功能的微生物物種組成可能差異較大(Gibbons et al. 2017; Louca et al. 2016; Nelson et al. 2016)。這說明,除了揭示環(huán)境中有哪些微生物之外,揭示微生物群落功能輪廓尤為重要。目前,微生物生態(tài)研究中常用的揭示微生物群落功能的方法有宏基因組測序、宏轉(zhuǎn)錄組測序、宏蛋白組測序、宏代謝組分析等。這些方法優(yōu)點突出,能較準確、真實地反映不同層面的微生物群落功能特征。但其價格較高,一般實驗室難以承受大批量樣本的實驗;另外,數(shù)據(jù)量巨大,數(shù)據(jù)處理也是難點。有沒有較經(jīng)濟、又適合大樣本的方法呢?有!那就是基于marker基因擴增子高通量測序的功能預(yù)測。上次盧瑟菌給大家介紹了根據(jù)真菌ITS序列預(yù)測真菌群落功能的工具——FUNGuild(點擊了解更多) 今天,盧瑟菌就和大家介紹基于原核16SrDNA高通量測序結(jié)果對微生物群落功能(function)或表型(phenotype)進行預(yù)測的四種方法——PICRUSt、Tax4Fun、FAPROTAX及BugBase。 簡介 PICRUSt全稱為Phylogenetic Investigationof Communities by Reconstruction of Unobserved States,由Langille等人于2013年開發(fā),文章發(fā)表在Nature Biotechnology上(Langille et al. 2013)。它是最早被開發(fā)的基于16S rRNA基因序列預(yù)測微生物群落功能的工具,包括在線版(http://huttenhower.sph./galaxy/root?tool_id=PICRUSt_normalize)和基于MacOS X或Linux系統(tǒng)的下載安裝版(http://picrust./picrust/install.html#install)。 原理 如圖1所示,其預(yù)測過程分兩步: (1)基因內(nèi)容預(yù)測(gene content inference)。該步先對Greengenes數(shù)據(jù)庫的“closed reference”序列劃分OTU后構(gòu)建進化樹,通過祖先狀態(tài)重構(gòu)(Ancestralstate reconstruction)算法并結(jié)合IMG/M數(shù)據(jù)庫,預(yù)測出樹中未進行全基因組測序OTU的基因組信息。 (2)宏基因組預(yù)測(metagenome inference)。將16SrDNA測序結(jié)果與Greengenes數(shù)據(jù)庫進行比對,挑選出與“closed reference”數(shù)據(jù)庫相似性高的(默認為≥97%)OTU;根據(jù)OTU對應(yīng)基因組中16SrDNA的拷貝數(shù)信息,將每個OTU對應(yīng)序列數(shù)除以其16S拷貝數(shù)來進行標準化;最后,將標準化的數(shù)據(jù)乘以其對應(yīng)的基因組中基因含量從而實現(xiàn)宏基因組預(yù)測的目的。獲得的預(yù)測結(jié)果可以通過KEGG Orthology、COGs或Pfams等對基因家族進行分類。 圖1 PICRUSt預(yù)測微生物功能原理流程圖(Langille et al. 2013) 特點 (1)因開發(fā)者當初開發(fā)PICRUSt時基于Greengenes數(shù)據(jù)庫為參考,用該分析時只識別16S序列與Greengenes數(shù)據(jù)庫(GG13.5或GG12.5)比對的結(jié)果; (2)預(yù)測結(jié)果的準確度可通過參數(shù)NSTI(Nearest Sequenced Taxon Index)值的大小來評估。NSTI表征某樣品中所有微生物OTU與其親緣關(guān)系最近的已測序基因組間系統(tǒng)進化距離的平均值,因此,該值越小表示預(yù)測結(jié)果越可信。如圖2,通過對不同環(huán)境來源的微生物群落功能預(yù)測結(jié)果及其宏基因組數(shù)據(jù)比較后發(fā)現(xiàn):PICRUSt對于人腸道微生物樣品的預(yù)測結(jié)果最好(平均NSTI =0.03 ± 0.02 s.d.),其次是土壤樣品(平均NSTI= 0.17 ± 0.02 s.d.),其他哺乳動物腸道樣品波動較大(NSTI = 0.14 ± 0.06 s.d.),而對于研究較少的高鹽微生物席樣品的預(yù)測準確度最低(NSTI= 0.23 ± 0.07 s.d.)。 圖2 不同環(huán)境微生物組PICRUSt預(yù)測準確度比較(Langille et al. 2013) (3)對于低16S測序深度的樣品也可獲得較準確的預(yù)測結(jié)果。通過比較PICRUSt預(yù)測與宏基因組測序隨測序深度變化的結(jié)果準確度后發(fā)現(xiàn),即使低16S測序量(105條序列)也可獲得準確度較高的功能預(yù)測結(jié)果(圖3)。這說明PICRUSt不僅適用于高通量測序后的功能預(yù)測,對于傳統(tǒng)克隆文庫/Sanger測序獲得的低測序深度的樣品也有較好的預(yù)測準確度。 圖3 隨測序深度增加PICRUSt預(yù)測與宏基因組測序結(jié)果準確度比較(Langille et al. 2013) (4)無論對古菌還是細菌都有較高的預(yù)測準確度。如圖4,無論細菌(mean= 0.95 ± 0.05 s.d., n = 2,487)還是古菌(mean = 0.94 ± 0.04s.d., n = 103),PICRUSt都有較高的預(yù)測準確度。 圖4 細菌和古菌基因組進化樹中PICRUSt預(yù)測準確度情況(Langille et al. 2013) (5)對不同功能基因分組的預(yù)測準確度存在差異,但均在可信范圍。如圖5,對于核心功能基因分組,如遺傳信息加工的基因家族預(yù)測準確度最高(0.99± 0.03 s.d.);而對于那些在不同基因組間易變和易發(fā)生基因橫向轉(zhuǎn)移的基因家族,如環(huán)境信息加工基因家族的預(yù)測準確度相對較低(0.95 ± 0.04 s.d.);但整體而言,預(yù)測的準確度都高于0.82,說明預(yù)測結(jié)果可靠。 圖5 PICRUSt對基因組功能模塊預(yù)測準確度差異(Langille et al. 2013) 示例 基于16S rDNA序列的PICRUSt功能預(yù)測,可獲得不同level(1~3)的KEGG Pathways的功能基因豐度富集情況(圖6),也可獲得具體與某個功能過程(如硫代謝等)相關(guān)的基因豐度情況(圖7)。 圖6 通過PICRUSt功能基因預(yù)測得到的KEGG通路中的基因相對豐度示例(Sun et al. 2016) 圖中展示了西藏獼猴在不同季節(jié)(winter和spring)腸道微生物的KEGG功能通路預(yù)測結(jié)果,*表示在不同季節(jié)差異顯著的功能富集。 圖7 通過PICRUSt預(yù)測得到的硫代謝相關(guān)基因的豐度示例(Wang et al. 2016) 圖中顯示了不同地點沉積物原核微生物群落硫代謝相關(guān)功能基因的PICRUSt預(yù)測結(jié)果,右側(cè)紅色字體表示異化硫酸鹽還原相關(guān)的基因,藍色表示同化硫酸鹽還原相關(guān)基因。
簡介 Tax4Fun是A?hauer等人2015年開發(fā)的通過16S高通量測序數(shù)據(jù)預(yù)測微生物群落功能的方法,文章發(fā)表在Bioinformatics上(A?hauer et al. 2015)。其設(shè)計思路與PICRUSt類似。Tax4Fun無網(wǎng)頁在線版,只能基于R包進行線下分析。相關(guān)資料下載鏈接:http://tax4fun./。 原理 首先,將16S高通量測序數(shù)據(jù)通過QIIME或SILVAngs平臺,基于SILVA數(shù)據(jù)庫對OTU進行物種分類;基于分類結(jié)果,再根據(jù)NCBI的基因組注釋對16S拷貝數(shù)進行標準化;最后通過構(gòu)建SILVA分類與KEGG數(shù)據(jù)庫中原核分類間的線性關(guān)系,實現(xiàn)對微生物群落功能的預(yù)測。 特點 據(jù)Tax4Fun文章介紹,其最大優(yōu)點是對微生物群落功能預(yù)測的準確性要比PICRUSt好。作者對不同環(huán)境來源的樣品(人類腸道、哺乳動物腸道、高鹽微生物席及土壤樣品)分別通過Tax4Fun和PICRUSt進行功能預(yù)測,并與相應(yīng)的宏基因組結(jié)果進行相關(guān)性分析后發(fā)現(xiàn):基于QIIME或SILVAngs平臺結(jié)合Tax4Fun的預(yù)測結(jié)果在所有測試樣品中與實際測得宏基因組結(jié)果的相關(guān)性均好于PICRUSt的預(yù)測結(jié)果,即Tax4Fun對微生物群落功能的預(yù)測準確性要優(yōu)于PICRUSt(圖8)。盧瑟菌個人認為,一方面,從預(yù)測原理來講,PICRUSt中相當比例OTU的基因組是經(jīng)祖先狀態(tài)重構(gòu)算法預(yù)測出來的,并非真實的基因組信息,而Tax4Fun都是基于KEGG庫中已測序注釋的原核基因組信息,這可能是決定兩者準確度差異的主要原因;另一方面,Tax4Fun選擇的是SILVA數(shù)據(jù)庫,而PICRUSt是Greengenes數(shù)據(jù)庫,前者的更新速度更快。 圖8 不同樣本宏基因組及Tax4Fun、PICRUSt預(yù)測結(jié)果相關(guān)性比較(A?hauer et al. 2015) 示例 與PICRUSt類似,通過Tax4Fun可預(yù)測出不同level(1~3)的KEGG Pathways功能基因豐度富集情況,也可獲得具體與某個功能過程(如硫代謝等)相關(guān)的基因豐度狀況(示例參見PICRUSt示例)。 簡介 FAPROTAX取詞自Functional Annotation of Prokaryotic Taxa,是Louca等人為解析微生物群落功能于2016年創(chuàng)建的基于原核微生物分類的功能注釋數(shù)據(jù)庫,文章發(fā)表在2016年的Science上(Louca et al. 2016)。FAPROTAX是基于目前對可培養(yǎng)菌的文獻資料手動整理的原核功能注釋數(shù)據(jù)庫,其包含了收集自4600多個原核微生物的80多個功能分組(如硝酸鹽呼吸、產(chǎn)甲烷、發(fā)酵、植物病原等)的7600多條功能注釋信息。作者編寫了一套python腳本來運行預(yù)測,輸入文件格式可以是SILVA或Greengenes數(shù)據(jù)庫生成的OTU分類表或BIOM文件。相關(guān)資料下載地址:http://www.zoology./louca/FAPROTAX/lib/php/index.php?section=Home。 原理 FAPROTAX原理與以前提到的真菌功能預(yù)測FUNGuild類似。如圖9,作者先根據(jù)文獻資料(Begrey's Manualof Systematic Bacteriology、The Prokaryotes、The International Journal of Systematic Bacteriology等)手動構(gòu)建了聯(lián)系物種分類與功能注釋的FAPROTAX數(shù)據(jù)庫;后又編寫了聯(lián)系OTU分類表與FAPROTAX數(shù)據(jù)庫的python腳本;最后,只要將基于16S的OTU分類表通過python腳本就可以輸出微生物群落功能注釋預(yù)測結(jié)果。 圖9 FAPROTAX預(yù)測微生物群落功能原理示意圖(Louca et al. 2016) 特點 FAPROTAX較適用于對環(huán)境樣本(如海洋、湖泊等)的生物地球化學(xué)循環(huán)過程(特別是碳、氫、氮、磷、硫等元素循環(huán))進行功能注釋預(yù)測。因其基于已發(fā)表驗證的可培養(yǎng)菌文獻,其預(yù)測準確度可能較好,但相比于上述PICRUSt和Tax4Fun來說預(yù)測的覆蓋度可能會降低。與PICRUSt和Tax4Fun類似,FAPROTAX依賴于16S序列的分類結(jié)果,較好的分類結(jié)果(能分辨到屬種水平的物種比例較高)才能得到較好的預(yù)測結(jié)果。預(yù)測結(jié)果中可能出現(xiàn)一個OTU對應(yīng)多個功能分組的情況,如被注釋到硫磺單胞菌屬(Sulfurospirillum)的OTU即可進行硝酸鹽氨化,又可以進行砷酸呼吸和發(fā)酵。 示例 FAPROTAX可根據(jù)16S序列的分類注釋結(jié)果對微生物群落功能(特別是生物地化循環(huán)相關(guān))進行注釋預(yù)測(圖10)。 圖10 FAPROTAX預(yù)測的不同分層海水樣品微生物群落功能輪廓(Louca et al. 2016) 圖中橫軸所示為表層(SRF,surfacewater)、葉綠素含量最高層(DCM,deepchlorophyll maximum)、混合層(MIX,mixedlayer)和海洋中層(MES,mesopelagic)海水樣品中微生物群落功能輪廓,縱軸所示為包括碳、氫、氮、硫等元素循環(huán)相關(guān)及其他諸多功能分組。顏色越深代表樣品中該類群微生物的相對豐度越高。
簡介 BugBase是Dan Knights課題組開發(fā)的用于對微生物組數(shù)據(jù)進行高水平表型(high-level phenotypes)分類的工具,目前相關(guān)文章正在整理之中,但該工具已開放,可免費使用(bugbase.cs.umn.edu/index.html)。該工具可對微生物群落根據(jù)七類表型進行分類:革蘭氏陽性(Gram Positive)、革蘭氏陰性(Gram Negative)、生物膜形成(Biofilm Forming)、致病性(Pathogenic)、移動元件(Mobile Element Containing)、氧需求(Oxygen Utilizing,包括Aerobic、Anaerobic、facultatively anaerobic)及氧化脅迫耐受(Oxidative Stress Tolerant)。輸入由Greengenes數(shù)據(jù)庫分類后的OTU表格(BIOM格式),即可快速實現(xiàn)對上述表型的分類預(yù)測。若同時輸入Mapping文件還可以實現(xiàn)對分組變量的作圖及統(tǒng)計比較分析。目前有在線網(wǎng)頁版(bugbase.cs.umn.edu/upload.html,數(shù)據(jù)<15M適用)和線下安裝版(bugbase.cs.umn.edu/downloads.html,>15M適用)。 原理 由于文章還未發(fā)表,因此具體原理未給出。但推測基本原理與上述三種類似,先根據(jù)Greengenes等數(shù)據(jù)庫對16S數(shù)據(jù)進行物種分類,再根據(jù)分類結(jié)果結(jié)合KEGG數(shù)據(jù)庫中原核功能基因的注釋或根據(jù)文獻對可培養(yǎng)菌的報道實現(xiàn)表型預(yù)測。 示例 通過BugBase可快速地對16S高通量結(jié)果根據(jù)七類表型進行分類比較(圖11)。 圖11 通過BugBase預(yù)測得到的細菌群落表型分析示例(Thomas et al. 2016) 圖中展示了結(jié)腸癌患者及健康人群的結(jié)腸樣本細菌群落在好氧、厭氧、革蘭氏陰性、陽性、生物膜形成及兼性厭氧等表型上的相對豐度差異,p值經(jīng)Wilcoxonrank sum test計算得到,p <0.05表示差異顯著,三條線自上而下分別表示上四分位、平均值及下四分位。
至此,目前常用的基于微生物marker基因的微生物群落功能預(yù)測工具介紹完畢。表1從不同角度列出了這些工具的特點,以方便大家選擇使用。另外,根據(jù)盧瑟菌的個人理解,簡單總結(jié)各工具的選擇策略,僅供參考: ①若想獲得原核微生物的KEGG代謝通路或相關(guān)酶等類似宏基因組測序獲得的功能預(yù)測信息,選擇PICRUSt和Tax4Fun。其中前者有定量的預(yù)測準確度評估參數(shù)NSTI,若NSTI≤0.17則說明PICRUSt的預(yù)測準確度較好。雖然Tax4Fun文中指出其預(yù)測準確性高于PICRUSt,但缺乏類似于NSTI的定量參數(shù)評估。因此,當NSTI >0.17時,建議兩種方法都試一下,看看結(jié)果是否一致。另外,除了考慮預(yù)測的準確度之外,預(yù)測力度或覆蓋度(即能被預(yù)測的OTU的序列數(shù)占總序列數(shù)的比例)也是要考慮的參數(shù)。 ②想了解原核微生物群落生態(tài)功能,尤其是在碳、氫、氮、磷、硫等元素的生物地球化學(xué)循環(huán)中的功能預(yù)測情況,選擇FAPROTAX。 ③想獲得原核微生物群落的好氧、厭氧、兼性厭氧、生物膜形成、革蘭氏陽性/陰性等高水平的表型分類情況,選擇BugBase。 ④想獲得真菌群落的共生、腐生、致病性等生態(tài)型分類,選擇FUNGuild。 ⑤上述所有基于marker基因的功能預(yù)測方法,都不能完全代表真實的微生物群落功能,若想嚴謹?shù)刈C明微生物群落確實存在某功能(基因),仍需要結(jié)合宏基因組、宏轉(zhuǎn)錄組、宏蛋白組、宏代謝組及其他微生物功能、活性測定方法來共同佐證。 表1 常用微生物群落功能預(yù)測工具比較
|
|