根據(jù)16S預(yù)測微生物群落功能最全攻略

BIGMER 2017-11-19

展開全文

最近，越來越多的證據(jù)表明：自然環(huán)境（如海洋、土壤等）中的微生物群落功能（functional）組成而非物種（taxonomic）組成與環(huán)境因子密切相關(guān)；換言之，相似環(huán)境中的微生物群落功能更相似，而行使功能的微生物物種組成可能差異較大（Gibbons et al. 2017; Louca et al. 2016; Nelson et al. 2016）。這說明，除了揭示環(huán)境中有哪些微生物之外，揭示微生物群落功能輪廓尤為重要。目前，微生物生態(tài)研究中常用的揭示微生物群落功能的方法有宏基因組測序、宏轉(zhuǎn)錄組測序、宏蛋白組測序、宏代謝組分析等。這些方法優(yōu)點突出，能較準確、真實地反映不同層面的微生物群落功能特征。但其價格較高，一般實驗室難以承受大批量樣本的實驗；另外，數(shù)據(jù)量巨大，數(shù)據(jù)處理也是難點。有沒有較經(jīng)濟、又適合大樣本的方法呢？有！那就是基于marker基因擴增子高通量測序的功能預(yù)測。上次盧瑟菌給大家介紹了根據(jù)真菌ITS序列預(yù)測真菌群落功能的工具——FUNGuild（點擊了解更多）

今天，盧瑟菌就和大家介紹基于原核16SrDNA高通量測序結(jié)果對微生物群落功能（function）或表型（phenotype）進行預(yù)測的四種方法——PICRUSt、Tax4Fun、FAPROTAX及BugBase。

PICRUSt

簡介

PICRUSt全稱為Phylogenetic Investigationof Communities by Reconstruction of Unobserved States，由Langille等人于2013年開發(fā)，文章發(fā)表在Nature Biotechnology上（Langille et al. 2013）。它是最早被開發(fā)的基于16S rRNA基因序列預(yù)測微生物群落功能的工具，包括在線版（http://huttenhower.sph./galaxy/root?tool_id=PICRUSt_normalize）和基于MacOS X或Linux系統(tǒng)的下載安裝版（http://picrust./picrust/install.html#install）。

原理

如圖1所示，其預(yù)測過程分兩步：

（1）基因內(nèi)容預(yù)測（gene content inference）。該步先對Greengenes數(shù)據(jù)庫的“closed reference”序列劃分OTU后構(gòu)建進化樹，通過祖先狀態(tài)重構(gòu)（Ancestralstate reconstruction）算法并結(jié)合IMG/M數(shù)據(jù)庫，預(yù)測出樹中未進行全基因組測序OTU的基因組信息。

（2）宏基因組預(yù)測（metagenome inference）。將16SrDNA測序結(jié)果與Greengenes數(shù)據(jù)庫進行比對，挑選出與“closed reference”數(shù)據(jù)庫相似性高的（默認為≥97%）OTU；根據(jù)OTU對應(yīng)基因組中16SrDNA的拷貝數(shù)信息，將每個OTU對應(yīng)序列數(shù)除以其16S拷貝數(shù)來進行標準化；最后，將標準化的數(shù)據(jù)乘以其對應(yīng)的基因組中基因含量從而實現(xiàn)宏基因組預(yù)測的目的。獲得的預(yù)測結(jié)果可以通過KEGG Orthology、COGs或Pfams等對基因家族進行分類。

圖1 PICRUSt預(yù)測微生物功能原理流程圖（Langille et al. 2013）

特點

（1）因開發(fā)者當初開發(fā)PICRUSt時基于Greengenes數(shù)據(jù)庫為參考，用該分析時只識別16S序列與Greengenes數(shù)據(jù)庫（GG13.5或GG12.5）比對的結(jié)果；

（2）預(yù)測結(jié)果的準確度可通過參數(shù)NSTI（Nearest Sequenced Taxon Index）值的大小來評估。NSTI表征某樣品中所有微生物OTU與其親緣關(guān)系最近的已測序基因組間系統(tǒng)進化距離的平均值，因此，該值越小表示預(yù)測結(jié)果越可信。如圖2，通過對不同環(huán)境來源的微生物群落功能預(yù)測結(jié)果及其宏基因組數(shù)據(jù)比較后發(fā)現(xiàn)：PICRUSt對于人腸道微生物樣品的預(yù)測結(jié)果最好（平均NSTI =0.03 ± 0.02 s.d.），其次是土壤樣品（平均NSTI= 0.17 ± 0.02 s.d.），其他哺乳動物腸道樣品波動較大（NSTI = 0.14 ± 0.06 s.d.），而對于研究較少的高鹽微生物席樣品的預(yù)測準確度最低（NSTI= 0.23 ± 0.07 s.d.）。

圖2 不同環(huán)境微生物組PICRUSt預(yù)測準確度比較（Langille et al. 2013）

（3）對于低16S測序深度的樣品也可獲得較準確的預(yù)測結(jié)果。通過比較PICRUSt預(yù)測與宏基因組測序隨測序深度變化的結(jié)果準確度后發(fā)現(xiàn)，即使低16S測序量（105條序列）也可獲得準確度較高的功能預(yù)測結(jié)果（圖3）。這說明PICRUSt不僅適用于高通量測序后的功能預(yù)測，對于傳統(tǒng)克隆文庫/Sanger測序獲得的低測序深度的樣品也有較好的預(yù)測準確度。

圖3 隨測序深度增加PICRUSt預(yù)測與宏基因組測序結(jié)果準確度比較（Langille et al. 2013）

（4）無論對古菌還是細菌都有較高的預(yù)測準確度。如圖4，無論細菌（mean= 0.95 ± 0.05 s.d., n = 2,487）還是古菌（mean = 0.94 ± 0.04s.d., n = 103），PICRUSt都有較高的預(yù)測準確度。

圖4 細菌和古菌基因組進化樹中PICRUSt預(yù)測準確度情況（Langille et al. 2013）

（5）對不同功能基因分組的預(yù)測準確度存在差異，但均在可信范圍。如圖5，對于核心功能基因分組，如遺傳信息加工的基因家族預(yù)測準確度最高（0.99± 0.03 s.d.）；而對于那些在不同基因組間易變和易發(fā)生基因橫向轉(zhuǎn)移的基因家族，如環(huán)境信息加工基因家族的預(yù)測準確度相對較低（0.95 ± 0.04 s.d.）；但整體而言，預(yù)測的準確度都高于0.82，說明預(yù)測結(jié)果可靠。

圖5 PICRUSt對基因組功能模塊預(yù)測準確度差異（Langille et al. 2013）

示例

基于16S rDNA序列的PICRUSt功能預(yù)測，可獲得不同level（1~3）的KEGG Pathways的功能基因豐度富集情況（圖6），也可獲得具體與某個功能過程（如硫代謝等）相關(guān)的基因豐度情況（圖7）。

圖6 通過PICRUSt功能基因預(yù)測得到的KEGG通路中的基因相對豐度示例（Sun et al. 2016）

圖中展示了西藏獼猴在不同季節(jié)（winter和spring）腸道微生物的KEGG功能通路預(yù)測結(jié)果，*表示在不同季節(jié)差異顯著的功能富集。

圖7 通過PICRUSt預(yù)測得到的硫代謝相關(guān)基因的豐度示例（Wang et al. 2016）

圖中顯示了不同地點沉積物原核微生物群落硫代謝相關(guān)功能基因的PICRUSt預(yù)測結(jié)果，右側(cè)紅色字體表示異化硫酸鹽還原相關(guān)的基因，藍色表示同化硫酸鹽還原相關(guān)基因。

Tax4Fun

簡介

Tax4Fun是A?hauer等人2015年開發(fā)的通過16S高通量測序數(shù)據(jù)預(yù)測微生物群落功能的方法，文章發(fā)表在Bioinformatics上（A?hauer et al. 2015）。其設(shè)計思路與PICRUSt類似。Tax4Fun無網(wǎng)頁在線版，只能基于R包進行線下分析。相關(guān)資料下載鏈接：http://tax4fun./。

原理

首先，將16S高通量測序數(shù)據(jù)通過QIIME或SILVAngs平臺，基于SILVA數(shù)據(jù)庫對OTU進行物種分類；基于分類結(jié)果，再根據(jù)NCBI的基因組注釋對16S拷貝數(shù)進行標準化；最后通過構(gòu)建SILVA分類與KEGG數(shù)據(jù)庫中原核分類間的線性關(guān)系，實現(xiàn)對微生物群落功能的預(yù)測。

特點

據(jù)Tax4Fun文章介紹，其最大優(yōu)點是對微生物群落功能預(yù)測的準確性要比PICRUSt好。作者對不同環(huán)境來源的樣品（人類腸道、哺乳動物腸道、高鹽微生物席及土壤樣品）分別通過Tax4Fun和PICRUSt進行功能預(yù)測，并與相應(yīng)的宏基因組結(jié)果進行相關(guān)性分析后發(fā)現(xiàn)：基于QIIME或SILVAngs平臺結(jié)合Tax4Fun的預(yù)測結(jié)果在所有測試樣品中與實際測得宏基因組結(jié)果的相關(guān)性均好于PICRUSt的預(yù)測結(jié)果，即Tax4Fun對微生物群落功能的預(yù)測準確性要優(yōu)于PICRUSt（圖8）。盧瑟菌個人認為，一方面，從預(yù)測原理來講，PICRUSt中相當比例OTU的基因組是經(jīng)祖先狀態(tài)重構(gòu)算法預(yù)測出來的，并非真實的基因組信息，而Tax4Fun都是基于KEGG庫中已測序注釋的原核基因組信息，這可能是決定兩者準確度差異的主要原因；另一方面，Tax4Fun選擇的是SILVA數(shù)據(jù)庫，而PICRUSt是Greengenes數(shù)據(jù)庫，前者的更新速度更快。

圖8 不同樣本宏基因組及Tax4Fun、PICRUSt預(yù)測結(jié)果相關(guān)性比較（A?hauer et al. 2015）

示例

與PICRUSt類似，通過Tax4Fun可預(yù)測出不同level（1~3）的KEGG Pathways功能基因豐度富集情況，也可獲得具體與某個功能過程（如硫代謝等）相關(guān)的基因豐度狀況（示例參見PICRUSt示例）。

FAPROTAX

簡介

FAPROTAX取詞自Functional Annotation of Prokaryotic Taxa，是Louca等人為解析微生物群落功能于2016年創(chuàng)建的基于原核微生物分類的功能注釋數(shù)據(jù)庫，文章發(fā)表在2016年的Science上（Louca et al. 2016）。FAPROTAX是基于目前對可培養(yǎng)菌的文獻資料手動整理的原核功能注釋數(shù)據(jù)庫，其包含了收集自4600多個原核微生物的80多個功能分組（如硝酸鹽呼吸、產(chǎn)甲烷、發(fā)酵、植物病原等）的7600多條功能注釋信息。作者編寫了一套python腳本來運行預(yù)測，輸入文件格式可以是SILVA或Greengenes數(shù)據(jù)庫生成的OTU分類表或BIOM文件。相關(guān)資料下載地址：http://www.zoology./louca/FAPROTAX/lib/php/index.php?section=Home。

原理

FAPROTAX原理與以前提到的真菌功能預(yù)測FUNGuild類似。如圖9，作者先根據(jù)文獻資料（Begrey's Manualof Systematic Bacteriology、The Prokaryotes、The International Journal of Systematic Bacteriology等）手動構(gòu)建了聯(lián)系物種分類與功能注釋的FAPROTAX數(shù)據(jù)庫；后又編寫了聯(lián)系OTU分類表與FAPROTAX數(shù)據(jù)庫的python腳本；最后，只要將基于16S的OTU分類表通過python腳本就可以輸出微生物群落功能注釋預(yù)測結(jié)果。

圖9 FAPROTAX預(yù)測微生物群落功能原理示意圖（Louca et al. 2016）

特點

FAPROTAX較適用于對環(huán)境樣本（如海洋、湖泊等）的生物地球化學(xué)循環(huán)過程（特別是碳、氫、氮、磷、硫等元素循環(huán)）進行功能注釋預(yù)測。因其基于已發(fā)表驗證的可培養(yǎng)菌文獻，其預(yù)測準確度可能較好，但相比于上述PICRUSt和Tax4Fun來說預(yù)測的覆蓋度可能會降低。與PICRUSt和Tax4Fun類似，FAPROTAX依賴于16S序列的分類結(jié)果，較好的分類結(jié)果（能分辨到屬種水平的物種比例較高）才能得到較好的預(yù)測結(jié)果。預(yù)測結(jié)果中可能出現(xiàn)一個OTU對應(yīng)多個功能分組的情況，如被注釋到硫磺單胞菌屬（Sulfurospirillum）的OTU即可進行硝酸鹽氨化，又可以進行砷酸呼吸和發(fā)酵。

示例

FAPROTAX可根據(jù)16S序列的分類注釋結(jié)果對微生物群落功能（特別是生物地化循環(huán)相關(guān)）進行注釋預(yù)測（圖10）。

圖10 FAPROTAX預(yù)測的不同分層海水樣品微生物群落功能輪廓（Louca et al. 2016）

圖中橫軸所示為表層（SRF，surfacewater）、葉綠素含量最高層（DCM，deepchlorophyll maximum）、混合層（MIX，mixedlayer）和海洋中層（MES，mesopelagic）海水樣品中微生物群落功能輪廓，縱軸所示為包括碳、氫、氮、硫等元素循環(huán)相關(guān)及其他諸多功能分組。顏色越深代表樣品中該類群微生物的相對豐度越高。

BugBase

簡介

BugBase是Dan Knights課題組開發(fā)的用于對微生物組數(shù)據(jù)進行高水平表型（high-level phenotypes）分類的工具，目前相關(guān)文章正在整理之中，但該工具已開放，可免費使用（bugbase.cs.umn.edu/index.html）。該工具可對微生物群落根據(jù)七類表型進行分類：革蘭氏陽性（Gram Positive）、革蘭氏陰性（Gram Negative）、生物膜形成（Biofilm Forming）、致病性（Pathogenic）、移動元件（Mobile Element Containing）、氧需求（Oxygen Utilizing，包括Aerobic、Anaerobic、facultatively anaerobic）及氧化脅迫耐受（Oxidative Stress Tolerant）。輸入由Greengenes數(shù)據(jù)庫分類后的OTU表格（BIOM格式），即可快速實現(xiàn)對上述表型的分類預(yù)測。若同時輸入Mapping文件還可以實現(xiàn)對分組變量的作圖及統(tǒng)計比較分析。目前有在線網(wǎng)頁版（bugbase.cs.umn.edu/upload.html，數(shù)據(jù)<15M適用）和線下安裝版（bugbase.cs.umn.edu/downloads.html，>15M適用）。

原理

由于文章還未發(fā)表，因此具體原理未給出。但推測基本原理與上述三種類似，先根據(jù)Greengenes等數(shù)據(jù)庫對16S數(shù)據(jù)進行物種分類，再根據(jù)分類結(jié)果結(jié)合KEGG數(shù)據(jù)庫中原核功能基因的注釋或根據(jù)文獻對可培養(yǎng)菌的報道實現(xiàn)表型預(yù)測。

示例

通過BugBase可快速地對16S高通量結(jié)果根據(jù)七類表型進行分類比較（圖11）。

圖11 通過BugBase預(yù)測得到的細菌群落表型分析示例（Thomas et al. 2016）

圖中展示了結(jié)腸癌患者及健康人群的結(jié)腸樣本細菌群落在好氧、厭氧、革蘭氏陰性、陽性、生物膜形成及兼性厭氧等表型上的相對豐度差異，p值經(jīng)Wilcoxonrank sum test計算得到，p <0.05表示差異顯著，三條線自上而下分別表示上四分位、平均值及下四分位。

結(jié)語

至此，目前常用的基于微生物marker基因的微生物群落功能預(yù)測工具介紹完畢。表1從不同角度列出了這些工具的特點，以方便大家選擇使用。另外，根據(jù)盧瑟菌的個人理解，簡單總結(jié)各工具的選擇策略，僅供參考：

①若想獲得原核微生物的KEGG代謝通路或相關(guān)酶等類似宏基因組測序獲得的功能預(yù)測信息，選擇PICRUSt和Tax4Fun。其中前者有定量的預(yù)測準確度評估參數(shù)NSTI，若NSTI≤0.17則說明PICRUSt的預(yù)測準確度較好。雖然Tax4Fun文中指出其預(yù)測準確性高于PICRUSt，但缺乏類似于NSTI的定量參數(shù)評估。因此，當NSTI >0.17時，建議兩種方法都試一下，看看結(jié)果是否一致。另外，除了考慮預(yù)測的準確度之外，預(yù)測力度或覆蓋度（即能被預(yù)測的OTU的序列數(shù)占總序列數(shù)的比例）也是要考慮的參數(shù)。