微生物組分析師:統(tǒng)計、可視和元分析微生物組數(shù)據(jù)的網(wǎng)頁工具MicrobiomeAnalyst — comprehensive statistical, visual and meta-analysis of microbiome data 第一作者:Achal Dhariwal 通訊作者:夏建國 Jianguo Xia 主要單位:加拿大魁北克,麥吉爾大學(xué),動物科學(xué)系,寄生蟲研究所,微生物與免疫系,微生物組與疾病耐受中心 能掛三個及三個以上單位的都是大佬 文章從投稿,到接受,只用了一個月。 其它作者:Jasmine Chong2, Salam Habib3, Irah L. King4,5, Luis B. Agellon3 and 關(guān)于此網(wǎng)頁工具的使用,請閱讀 本文旨在對原文解讀,幫助大家理解平臺的優(yōu)缺點,同時學(xué)習(xí)自己搭建分析平臺應(yīng)該注意的地方,對下一階段分析平臺開發(fā)展望的提出建設(shè)性意見。 宏基因組相關(guān)分析工具: 同時本文也是一篇微生物組入門分析的超好綜述,不同層次人群會有不同收獲,推薦同行必讀。 導(dǎo)讀微生物組研究重點從上游標(biāo)準(zhǔn)化定量和組裝,轉(zhuǎn)移至下游數(shù)據(jù)個體化的挖掘和比較階段,但相關(guān)工具甚少; 微生物組分析師(MicrobiomeAnalyst)是一款用戶界面友好,整合了最新統(tǒng)計和可視化方法的免費分析云平臺; 可提供擴(kuò)增子、宏基因組和宏轉(zhuǎn)錄組豐度矩陣對應(yīng)的下游數(shù)據(jù)分析、功能組成和代謝網(wǎng)絡(luò)可視化; 例如基于OTU表、物種注釋和分組信息,可實現(xiàn)Alpha、Beta多樣性、物種組成、組間差異比較、機(jī)器學(xué)習(xí)等20余種常用分析和繪圖; 同時結(jié)合文獻(xiàn)挖掘和公共數(shù)據(jù)建立了物種富含分析方法; 可一鍵下載分析報告,助力生物學(xué)家輕松開展宏組學(xué)數(shù)據(jù)挖掘和探索。 本文全文推薦閱讀,不僅是整體微生物組分析方法系統(tǒng)的比較和總結(jié),也是對文章寫方法部分最好的參考資料。 摘要廣泛的新一代測序技術(shù),在揭示微生物群體和基因組成上的巨大優(yōu)勢,帶來了微生物組研究的革命。如何去分析龐大復(fù)雜的數(shù)據(jù)集,對當(dāng)前微生物組研究充滿挑戰(zhàn)。過去的十幾年里,強(qiáng)大的計算流程,和穩(wěn)健的工具已經(jīng)可以有效的處理原始序列和注釋。目前重點已經(jīng)轉(zhuǎn)換至下游統(tǒng)計分析和功能解析。 因此,我們開發(fā)了微生物組分析師(MicrobiomeAnalyst),一款用戶界面友好的工具,整合了最進(jìn)的統(tǒng)計和可視化技術(shù),并結(jié)合廣泛的分析微生物組的輸出數(shù)據(jù)。它包括四個模塊:Marker Data Profiling模塊可以完成各種群體組成分析,基于16S的比較分析和功能預(yù)測;Shotgun Data Profiling模塊支持宏基因組、宏轉(zhuǎn)錄組數(shù)據(jù)探索數(shù)據(jù)分析、功能組成和代謝網(wǎng)絡(luò)可視化;Taxon Set Enrichment Analysis模塊通過文獻(xiàn)和公共數(shù)據(jù)中物種集,來分析富集物種;Projection with Public Data允許用戶可視化探索公共數(shù)據(jù)庫,去發(fā)現(xiàn)生物學(xué)特征。 網(wǎng)址:http://www. 背景本領(lǐng)域目前三個最常用的測序策略,即擴(kuò)增子(如16S)分析標(biāo)記基因獲得物種組成、宏基因組研究功能潛能和宏轉(zhuǎn)錄組鑒定活性表達(dá)基因;這些研究產(chǎn)生大數(shù)據(jù)結(jié)果,對下游分析具有挑戰(zhàn)性。 早期的分析關(guān)注原始數(shù)據(jù)處理,聚類和注釋,開發(fā)了很多強(qiáng)大的工具,如MEGAN, MG-RAST, mothur and QIIME(1–4)。這些軟件可產(chǎn)生BIOM格式的特征(包括OTU、物種分類和基因)在各樣品豐度信息,注釋和元數(shù)據(jù)(如分組信息)。最近開發(fā)的BIOM格式開發(fā)存儲這些類型的信息,幫助現(xiàn)有生信工具分析和進(jìn)一步元分析(5)。對大多數(shù)研究人員,數(shù)據(jù)分析的主要挑戰(zhàn)是在不同實驗因子或研究條件下,豐度表或BIOM文件在上下文中有合理的意義。 微生物組數(shù)據(jù)分析分為四大類:1. 物種組成taxonomic profiling - 群體組成特征,基于生態(tài)的方法有Alpha多樣性(樣本內(nèi)多樣性),Beta多樣性(樣本間多樣性);2. 功能組成functional profiling - 分配基因為不同的功能組(如代謝通路或生物過程),以理解功能潛能;3. 比較分析comparative analysis - 鑒定不同條件間差異特征;4. 元分析 - 整合現(xiàn)有數(shù)據(jù)與公共數(shù)據(jù),或積累的知識,改進(jìn)統(tǒng)計功效或生物學(xué)理解。前兩類目前很成熟,后兩類仍充滿挑戰(zhàn),成為研究努力的主要方向。 微生物組數(shù)據(jù)呈現(xiàn)幾大挑戰(zhàn):松散,包括許多零;樣品間測序深度差異大;分布變異較大,離散。這些特征使組學(xué)中其它分析方法不太適合微生物組數(shù)據(jù)。因此,無參的置換類方法經(jīng)常用于微生物組數(shù)據(jù)中顯著特征的鑒定。盡管此類方法穩(wěn)健,但缺少統(tǒng)計功效,不支持添加混雜因子等復(fù)雜實驗。處理不均勻的測序深度,主要兩種方法:重新標(biāo)準(zhǔn)化序列為一個恒量,即比例proportions;或重采樣各樣本為相等數(shù)量,即抽樣rarefying。前者會出現(xiàn)組成型數(shù)據(jù)的問題,而后者會損失一些重要的信息。一般來說,最好的方法是開發(fā)適合松散數(shù)據(jù)結(jié)構(gòu)和不同測序深度的統(tǒng)計模型,或者開發(fā)合適的數(shù)據(jù)轉(zhuǎn)換方法,使現(xiàn)用數(shù)據(jù)適合其它算法的數(shù)據(jù)分布模型。近年來在這些方面有一些重大進(jìn)展。例如,metagenomeSeq算法整合了累計求合標(biāo)準(zhǔn)化(cumulative-sum scaling, CSS)方法,統(tǒng)計模型為高斯零膨脹(zeroinflated 近期的主要方法都采用R包發(fā)布。phyloseq是一個平臺,方便用戶探索微生物組數(shù)據(jù)不同統(tǒng)計方法。盡管R語言靈活、易學(xué)且強(qiáng)大,但對于臨床醫(yī)生、濕實驗人員還是有一定的門檻。這就急需更方便的工具給大家使用。而且隨著研究結(jié)果和知識的積累,可以開展不僅局限于單個項目的元分析;如將新樣本置于公共數(shù)據(jù)中、對現(xiàn)在隊列增加樣本提高統(tǒng)計功效、與己知研究比較差異。 微生物組分析師,基于網(wǎng)頁開發(fā)的程序,允許臨床和科學(xué)家輕松進(jìn)行數(shù)據(jù)分析,包括如下特征:
網(wǎng)站也包括大量的文檔,教程幫助研究人員學(xué)習(xí)差異分析 。網(wǎng)址:http://www. 項目描述和方法包括四個模塊:擴(kuò)增子分析MDP、宏基因組分析SDP、物種富集分析TSEA和公開項目數(shù)據(jù)PPD。建議用戶按教程,使用測試數(shù)據(jù)熟悉分析流程,再使用自己的數(shù)據(jù)開展分析。 圖1. 平臺流程圖MicrobiomeAnalyst支持物種和基因列表,OTU或基因豐度表,或BIOM文件。三個連續(xù)的過程:數(shù)據(jù)處理、數(shù)據(jù)分析和結(jié)果探索。相關(guān)網(wǎng)頁提供豐富的選項,產(chǎn)生各種表格和圖形,允許用戶自發(fā)的探索數(shù)據(jù)分析。 數(shù)據(jù)上傳和處理輸入數(shù)據(jù)MDP和PPD分析16S擴(kuò)增子。用戶需要提供OTU表、樣本分組信息,采用制表符或分號分隔。也接受BIOM格式。SDP模塊需要提供KEGG、EC或COG的ID。 數(shù)據(jù)過濾基于技術(shù)、統(tǒng)計和生物學(xué)的考慮,默認(rèn)全零和只出現(xiàn)1次的將會剔除(個人建議差異比較時總量小于個位數(shù)的都可以去除)。特殊情況下,特征在一些樣本中低頻次出現(xiàn)不能確定是否為測序錯誤,統(tǒng)計上也很難解釋它們的重要性。最小的干凈數(shù)據(jù)保存用于alpha多樣性分析,用于理解單個樣本的多樣性。對于其它的分析,進(jìn)一步的過濾是必須的。默認(rèn)的特征進(jìn)一步按豐度水平、樣本中出現(xiàn)頻率進(jìn)行過濾。用戶也可以按均值、或中位數(shù)進(jìn)一步過濾OTU(建議更可結(jié)合實驗設(shè)計按組篩選OTU的豐度均值和中位數(shù)篩選)。如果主要的目地是差異分析,變異IQR、標(biāo)準(zhǔn)變異、或變異系數(shù)較低的特征可以排除在分析之外。這些特征在比較分析時不太可能顯著。過濾這些無信息的特征,可以有效緩解數(shù)據(jù)松散的問題,在下游分析中減少多重檢驗,提高統(tǒng)計功效。 數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)過濾后,數(shù)據(jù)標(biāo)準(zhǔn)化可以使比較更有意義。本系統(tǒng)提供多種標(biāo)準(zhǔn)化方法,標(biāo)準(zhǔn)化、轉(zhuǎn)換和抽樣,由phyloseq實現(xiàn)。標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行beta多樣性和聚類分析。LEfSe分析對標(biāo)準(zhǔn)化方法沒有要求。其它比較分析對自己的標(biāo)準(zhǔn)化分析方法有特殊要求。如metagenome-Seq要求CSS標(biāo)準(zhǔn)化,edgeR要求M值的修剪均值(trimmed mean of M-values, TMM),當(dāng)然也允許用戶進(jìn)行重采樣至相同數(shù)據(jù)量(rarefying,抽平)。最近的研究表明,如果樣本大小差異較大,如10倍,抽平是必要的。抽平曲線分析允許用戶可視化觀察測試深度與OTU數(shù)據(jù)的關(guān)系。 群體組成物種組成多樣性群體組成主要采用R的phyloseq和vegan包。分析可以在不同分類級進(jìn)行。alpha多樣性功能目前支持6種多樣性指數(shù)。樣本的結(jié)果可用箱線圖展示(圖2A)。組間的統(tǒng)計顯著性,用戶可選有參、無參方法計算。用戶也可以采用堆疊面積圖或堆疊柱狀圖展示不同分類級別。Beta多樣性支持5種常用距離。結(jié)果可采用2D或3D方式展示PCoA或NMDS結(jié)果,并默認(rèn)采用PERMANOVA統(tǒng)計。為輔助鑒定生物學(xué)意義,可按元數(shù)據(jù)metadata分組或樣本屬性、alpha指數(shù)和特征的豐度著色。此方法可以觀察到分組、梯度變化等樣式。 預(yù)測代謝潛能和組成基于16S與己知基因組微生物的進(jìn)化距離和序列相似來估計代謝潛能。PICRUSt采用Greengenes注釋數(shù)據(jù),Tax4Fun采用SILVA數(shù)據(jù)庫注釋數(shù)據(jù)。結(jié)果包括KO相對豐度。來自16S預(yù)測、宏基因組或宏轉(zhuǎn)錄組的KO(通路、模塊和EC分類)或COG組成可用于功能分析。一個KO或COG可能歸為多個功能組,本軟件提供多種方式處理些問題,如簡單加和、標(biāo)準(zhǔn)化加和,或權(quán)重加和。結(jié)果可用堆疊柱狀圖展示,并結(jié)合不同條件。對應(yīng)的豐度表可下載。 比較分析差異豐度分析本部分方便用戶鑒定差異豐度的特征。標(biāo)記基因可根據(jù)其分類學(xué)分析高級別的分類。高級分類合并可以降低數(shù)據(jù)松散,但也會將很多OTU歸類為末分類,影響生物學(xué)解釋。本系統(tǒng)支持有參、無參分析,如metagenomeSeq, edgeR和DESeq2。結(jié)果為一個數(shù)值表,可查看細(xì)節(jié)的箱線圖。不同統(tǒng)計方法的P值差別很大,建議多看幾種方法和可視化特征觀察數(shù)據(jù)分布。默認(rèn)系統(tǒng)顯示最多500個差異最顯著(P值越小)的特征。顯示差異的行自動橙色高亮。方便關(guān)注重點,防止丟失重要信息。宏基因組數(shù)據(jù),顯著的KO也被映射至代謝網(wǎng)絡(luò),可用于富集分析和可視化。 生物標(biāo)記鑒定和分類此部分提供了兩種成熟的分析方法LEfSe和隨機(jī)森林。LEfSe是專門針對微生物 組數(shù)據(jù)開發(fā)的,用于鑒定穩(wěn)定的生物學(xué)相關(guān)的標(biāo)志物。隨機(jī)森林是一種無參的機(jī)器學(xué)習(xí)算法,在微生物組數(shù)據(jù)分析和分類中表現(xiàn)良好。LEfSe采用KW秩和檢驗檢測不同組間豐度顯著差異的特征,然后采用線性分歧分析估計這些顯著差異的效應(yīng)量。用戶可以使用結(jié)合顯著性P和效應(yīng)量的組合值來篩選顯著的特征。隨機(jī)森林算法采用組合的分類樹,基于主要的投票結(jié)果進(jìn)行分類和預(yù)測。當(dāng)建立起了森林,可以用分類錯誤率進(jìn)行無偏的估計。此外,算法也可以基于置換檢驗來獲得每個特征在分類上的重要性(錯誤率的增長)。網(wǎng)站可以產(chǎn)生圖形結(jié)果來展示不同數(shù)量下分類表現(xiàn)。 其它特征本平臺提供其它的方法可視化差異比較和聚類分析。用戶可以用堆疊柱狀圖,或面積圖展示各組各級別的豐度。交互的餅形圖,可以展示物種組成,并選擇組。用戶可以選擇感興趣的分類,并進(jìn)一步探索其更低級的分類。也當(dāng)然支持層級聚類和熱圖。圖2F、G展示樣本聚類和熱圖。所有的圖片輸出,可以下載PDF或SVG文件用于發(fā)表。 圖2. MicrobiomeAnalyst輸出結(jié)果展示A. 箱線圖展示不同組間的香農(nóng)指數(shù);B. 堆疊柱狀圖展示門水平物種;C. PCoA圖展示樣本顏色;D. 按科Bacteroidaceae水平豐度著色;E. 隨機(jī)森林分類結(jié)果展示;F. 樹狀圖展示樣本聚類,樣本名按飲食和性別著色;G. 物種豐度的聚類熱圖;H. TSEA交互網(wǎng)絡(luò);I. 3D PCoA圖;J. 全局代謝網(wǎng)絡(luò)可視化功能富集結(jié)果 物種集富集分析(TSEA)物種數(shù)據(jù)收集采用文本挖掘和人工校正的方法,在發(fā)表文章和數(shù)據(jù)集進(jìn)行整理。來自GOLD基因組數(shù)據(jù)庫和PATRIC的150株,主要按表型進(jìn)行組織。在60篇文獻(xiàn)中整理了174個物種,按宿主的生理、疾病狀態(tài)和生活樣式分類。最終從MicroPattern網(wǎng)站獲得40個更高級別的物種分類。這些物種集進(jìn)行手動注釋,以改進(jìn)名稱的可讀性,并鏈接至原始的數(shù)據(jù)庫和發(fā)表文獻(xiàn)。 富集分析和解析分析的目標(biāo)是發(fā)現(xiàn)特異的物種在己發(fā)表結(jié)果數(shù)據(jù)中是否顯著富集。差異分析在聚類中也顯示為同樣的結(jié)果。富集分析采用超幾何檢驗。結(jié)果采用交互網(wǎng)絡(luò)呈現(xiàn)(圖2H),并提供相關(guān)詳細(xì)結(jié)果。高級別的富集網(wǎng)絡(luò)提供全局查看物種重要性和關(guān)系的可能。每個結(jié)點用P值著色,大小為可比對的結(jié)果數(shù)量。連接為大于20%的信息支持。用戶可隨意修改點的布局。雙擊結(jié)點顯示成員,并用紅色高亮。 表1. 比較微生物組分析網(wǎng)站
共公數(shù)據(jù)計劃PPD此模塊允許用戶整合公共數(shù)據(jù)來可視化自己的數(shù)據(jù)。這種比較可以增加不同的發(fā)育階段或群體數(shù)量以進(jìn)一步挖掘信息。公共數(shù)據(jù)集來自QIITA的人、小鼠和牛數(shù)據(jù)。樣本的測序平臺、引物區(qū)域和相關(guān)文章方便讀者選擇合適的數(shù)據(jù)。為方便獲得有意義的比較,軟件要求用戶和公共數(shù)據(jù)間至少20%共有OTU才可以進(jìn)行比較。 結(jié)果采用3D PCoA可視化,結(jié)果顏色同實驗因素,結(jié)點形狀代表不同數(shù)據(jù)集。用戶可以旋轉(zhuǎn)、縮放和點擊查看樣本的物種組成。查看歷史顯示在右邊。比較不同結(jié)點的組成,用戶可以很容易的鑒定核心物種。不像Alpha和Beta多樣性只受高豐度各樣本間共有物種影響。由最近的大規(guī)模測試表明,標(biāo)準(zhǔn)化對聚類結(jié)果影響不大。因此該方法應(yīng)用于計算PCoA中高豐度的20%以便節(jié)約時間。用戶可以選擇探索完整的數(shù)據(jù)集。 代謝網(wǎng)絡(luò)可視化宏基因組數(shù)據(jù)可以進(jìn)行富集分析和可視化代謝網(wǎng)絡(luò)。此框架開發(fā)基于KEGG數(shù)據(jù)庫的KEGGscape,并結(jié)合人工修正。截圖見圖2J。主要包括三部分:中心網(wǎng)絡(luò)可視化區(qū)域,頂部工具欄和右側(cè)通路表。網(wǎng)絡(luò)顯示在中心區(qū)域,結(jié)點和邊代表代謝物和酶反應(yīng)。在一些地方,反應(yīng)被使用多次用于減少簇。一個KO編碼的酶可能被分配至多個邊。雙擊邊會顯示KO信息。鼠標(biāo)滾輪可以縮放網(wǎng)絡(luò)。頂部工具換背景色、樣本、高亮、圖片下載等。左側(cè)顯示的通路模塊按P值排序。單擊可以高亮選擇KO,線的粗細(xì)代表其豐度水平。 使用實例為了更好演示本軟件的有效性,我們使用此平臺分析一套小鼠腸道數(shù)據(jù)。分為低脂(LFD)和高脂(WSD)飲食組。10周后收集糞便和盲腸內(nèi)容物,DNA 16S測序。原始數(shù)據(jù)處理使用MG-RAST,獲得BIOM結(jié)果上傳至MDP模塊分析。首先比較糞便和盲腸內(nèi)容物。盲腸比糞便有更高的多樣性(圖2A);結(jié)果高脂飲食多樣性明顯減少。使用糞便分析顯示,高脂飲食的擬桿菌門下降,厚壁菌和變形菌門上升(圖2B)。此外,PCoA圖顯示兩類飲食群落結(jié)構(gòu)顯著不同(圖2C/D, P < 0.01),其中擬桿菌的豐度變化與飲食分開顯著相關(guān)。隨機(jī)森林也可以較好分開兩類飲食(圖2E)。從聚類角度觀察性別影響,發(fā)現(xiàn)飲食是主要差異(圖2F)。當(dāng)比較高脂對低脂飲食時,性別中也有特異豐富的類群(圖2G)。在不同級別和OTU進(jìn)行edgeR / DESeq2差異豐度分析。結(jié)果表明兩種方法一致性較好。 設(shè)計與實施MicrobiomeAnalyst基于Java、R和JavaScript。R包phyloseq用于數(shù)據(jù)格式化、統(tǒng)計分析和可視化,和進(jìn)一步優(yōu)化計算效率和可視化效果。Java服務(wù)器界面(JSF)搭建的高性能網(wǎng)頁框架。系統(tǒng)布置于Google云服務(wù)器,32G內(nèi)存,8核2.6G CPU??商幚?00個用戶的日常分析。對主流瀏覽器均支持。 與其它工具的比較現(xiàn)有許多杰出的網(wǎng)頁分析工具(見表末)。一些工具是開發(fā)為了原始數(shù)據(jù)處理、注釋和存儲,只對高級統(tǒng)計和可視化非常有限的支持。本工具是對數(shù)據(jù)存儲和分析工具的補(bǔ)充,重點是統(tǒng)計和可視化豐度表或BIOM格式輸出結(jié)果。STAMP和Shiny-phyloseq是本地圖形界面分析的兩種選擇。在表1中列出了與現(xiàn)有網(wǎng)頁工具的比較,本平臺提供了獨特的統(tǒng)計和可視化、代謝網(wǎng)絡(luò)可視化與分析、物種富集分析和整合分析。 局限性和未來的發(fā)展方向MDP和SDP模塊分析人類和環(huán)境微生物組數(shù)據(jù)。TSEA和PPD模塊開發(fā)基于人和小鼠的研究,不適合環(huán)境樣本分析。本系統(tǒng)不支持相關(guān),或關(guān)聯(lián)分析;本領(lǐng)域相關(guān)分析不同方法結(jié)果差異較大,可能誤導(dǎo)經(jīng)驗不足的用戶。大多數(shù)些類方法需要大樣本量,需要計算資源密集,并不適合實時交互網(wǎng)頁分析。當(dāng)前為元分析提供公共數(shù)據(jù)和富集分析功能。我們將來提供可多可能的元分析。 結(jié)論作為生物醫(yī)學(xué)研究前沿,當(dāng)前的數(shù)據(jù)分析主要研究自然樣本。盡管近年來開發(fā)了很多統(tǒng)計算法,但研究表明沒有一種方法是通用的。因此在微生物組研究中探索數(shù)據(jù)在實時交互的平臺上使用多種算法是必須的,幫助我們理解數(shù)據(jù)和產(chǎn)生假設(shè)。它實現(xiàn)了多樣性分析、比較分析、代謝網(wǎng)絡(luò)可視化探索。提供了新穎的與公共數(shù)據(jù)比較功能。是對當(dāng)前微生物研究填補(bǔ)了空白。微生物組數(shù)據(jù)是復(fù)雜和動態(tài)的,末來將結(jié)合宿主及多組學(xué)從整體上進(jìn)一步認(rèn)識規(guī)律。本平臺將來的趨勢是關(guān)注主流趨勢,如整合代謝組數(shù)據(jù)和系統(tǒng)生物學(xué)。 還可進(jìn)一步開發(fā)的功能
Reference
|
|