微生物多樣性或者宏基因組分析中,往往有幾個(gè)出現(xiàn)頻率很高的詞,比如 OTU,群落結(jié)構(gòu),alpha多樣性, beta多樣性。今天就來通過分析思路上(主要圍繞微生物多樣性)給大家解釋一下這些高頻詞匯。 一、OTU分類 OTU[1]全稱為Operational Taxonomic Unit, 直譯過來是操作分類單元,其實(shí)是人為進(jìn)行定義的分類單元, 即一般是在微生物多樣性分析中,對序列以97%的相似度進(jìn)行Cluster聚類。 微生物的研究我們往往是在生境(例如人體腸道樣本,可以把腸道環(huán)境就是一個(gè)生境; 又如某一區(qū)域土壤取樣,可以把區(qū)域土壤看做一個(gè)生境)的群落結(jié)構(gòu)層面來關(guān)注。而類似生境下的群落構(gòu)成是有極大的相似性的。 所以多樣性研究的方法是: 首先對所有樣本的valid tags(tags這里指雙端reads拼接后的序列)以97%相似度進(jìn)行cluster聚類,分類OTU。例如9萬條tags可能cluster到2000個(gè)OTU單元。然后從每個(gè)OTU分類單元中挑選序列最長的或者是Abundance最大的作為代表序列。通過這2000個(gè)代表序列和數(shù)據(jù)庫比對并進(jìn)行注釋。 基于OTU水平可展示的分析有: 1. 基于OTU的venn圖和花瓣圖: 可以統(tǒng)計(jì)不同樣本或者分組間特有的OTU和共有的OTU。 2. 基于OTU代表序列的系統(tǒng)發(fā)育樹構(gòu)建: 可以挑選出豐度較高的OTU,并構(gòu)建這些OTU的系統(tǒng)發(fā)育樹,并輔助Heatmap結(jié)果展示。相對高低豐度OTU在不同樣本或分組一目了然。 3. 基于OTU的熱圖: 可以直觀展示OTU在不同樣本或者分組的豐度差異。 二、群落結(jié)構(gòu) community structure即群落結(jié)構(gòu)[2]。 生境內(nèi)微生物環(huán)境可以看做一個(gè)大的生態(tài)生物群落,而這些群落是由各種優(yōu)勢菌屬以及低豐度菌屬構(gòu)成,不同生境的微生物種類以及微生物的豐度是不同的,而這些多種類不同豐度的菌屬的構(gòu)成就可以理解為生境的群落結(jié)構(gòu)。 一般進(jìn)行群落結(jié)構(gòu)分析,可以從幾個(gè)角度來入手: 1. 群落結(jié)構(gòu)分布柱狀圖: 可以展示不同樣本或者分組整體群落的構(gòu)成,以及構(gòu)成之間的差異。 2. 群落結(jié)構(gòu)分布Heatmap圖: 可直觀展示物種在門綱目科屬水平的豐度高低。 三、alpha多樣性 alpha、beta多樣性均來源于生態(tài)學(xué),可以理解為兩個(gè)不同的空間尺度。alpha多樣性一般指生境內(nèi)物種的多樣性程度,即不側(cè)重于比較,而只是評估生境內(nèi)的多樣性程度,而beta多樣性側(cè)重于對不同生境的多樣性進(jìn)行比較。 alpha多樣性有很多評估指數(shù):observed species即觀測到的OTUs數(shù)目、shannon香農(nóng)指數(shù)[3]、simpson[4]指數(shù)、chao[5]指數(shù)、ACE指數(shù)等等…… 不同指數(shù)的側(cè)重點(diǎn)不同,以及計(jì)算公式也是不同??偟膩碚f:Observed species即為分類OTUs的數(shù)目;Shannon指數(shù)可同時(shí)反映群落的物種多樣性高低以及均勻度;Chao指數(shù)算法是通過計(jì)算群落中只檢測到1次和2次的OTU數(shù)目來估計(jì)群落中實(shí)際存在的物種數(shù)。因此該指數(shù)對于痕量菌(低豐度物種)相對比較敏感。 alpha多樣性分析可以從哪幾個(gè)角度來展示呢? 1. 可以計(jì)算出各個(gè)指數(shù)的數(shù)值,例如長這樣: 得到這樣一張指數(shù)表格,就可以評估出樣本的多樣性程度。當(dāng)然如果需要從指數(shù)數(shù)值上對不同樣本的多樣性程度或者均勻度進(jìn)行比較,可以首先對各個(gè)樣本中的序列進(jìn)行隨機(jī)抽齊操作,在同等的測序量下,比較樣本間的多樣性指數(shù)高低。 2. 可以通過多樣性指數(shù)對測序的飽和度進(jìn)行評估。例如下圖為稀釋曲線,縱坐標(biāo)為observed species即觀測OTU的個(gè)數(shù),橫軸為對序列集進(jìn)行隨機(jī)抽樣的抽樣深度。稀釋曲線展示的為在不同抽樣深度下構(gòu)建OTU的個(gè)數(shù)。該曲線可以對測序飽和度做一個(gè)初步評估,如果最終曲線趨于水平,代表當(dāng)前的測序量飽和度足夠。 3. 同時(shí)可以比較不同處理組的多樣性指數(shù)是否在兩組間有顯著性差異。如下圖,為2組(182個(gè))樣本的shannon指數(shù)Boxplot圖。箱線圖上的每個(gè)點(diǎn)代表一個(gè)樣本。通過ANOVA差異統(tǒng)計(jì)方法,計(jì)算出兩組的shannon指數(shù)差異p value為1.38*10-34。 四、beta多樣性分析 beta多樣性側(cè)重于不同生境的群落構(gòu)成的比較。常用于展示beta多樣性的分析方法有: 1. PCA[6]主成分分析。主成分分析是一項(xiàng)基于線性分析的模型,并不依賴于距離矩陣算法。 2. 基于距離矩陣算法的PCoA[6]分析以及NMDS分析。 與PCA主成分分析不同,PCoA以及NMDS可以通過不同的矩陣算法(Unweighted Unifrac、 Weighted Unifrac、 Bray Curtis、Binary Jaccard、 Euclidean等等)來比較樣本間的相似性。 3. RDA/CCA分析。即冗余分析(Redundancy analysis,RDA)、典型相關(guān)分析(Canonical analysis)。 即引入了環(huán)境因子的變量,通過菌群結(jié)構(gòu)數(shù)據(jù)與某種給定的因素互相擬合,通過置換檢驗(yàn)來探尋樣本、物種、環(huán)境兩兩之間的關(guān)系,或者三者之間的關(guān)系。 但是這么多beta多樣性比較的算法,應(yīng)該怎么取舍呢? 微生物多樣性研究一般建議結(jié)合實(shí)驗(yàn)設(shè)計(jì),考慮多種矩陣算法,選取最合適的一種。例如Unifrac距離有權(quán)重和非權(quán)重方法,非權(quán)重方法側(cè)重于只考慮物種有無,即群落物種種類差異;而權(quán)重算法不僅考慮物種有無,也會考慮物種豐度的高低。而有些處理因素主要會引起微生物物種豐度的變化,這種情況下可能更適合于權(quán)重算法。 五、統(tǒng)計(jì)分析(差異統(tǒng)計(jì)或者分類) 微生物多元變量統(tǒng)計(jì)分析,即根據(jù)不同的分組尋找組間差異物種,或者尋找不同處理組的biomarker。 統(tǒng)計(jì)分析有基于物種豐度(ANOVA、G_test、Metastat等),也有基于距離矩陣(Adonis、ANOSIM等)的算法。同時(shí)也可分為參數(shù)檢驗(yàn)的統(tǒng)計(jì)方法以及非參數(shù)檢驗(yàn)統(tǒng)計(jì)算法。 另外還有一些對于分類評估的統(tǒng)計(jì),例如ROC曲線分析。以及其他的一些統(tǒng)計(jì)方法: 隨機(jī)森林分布、LEfSe分析等。(想了解LEfSe分析么?想自己來做分析么? 請點(diǎn)擊以往微信文章:【干貨】微生物高分文章必備分析LEfSe) 上圖1為ROC[7]分析,即可以對于分類進(jìn)行評估,例如在土壤不同pH值因素以及不同溫度的因素下,通過群落物種分布評估這兩個(gè)處理下的分類效果。如果ROC曲線大于0.5說明分類效果較好。上圖2為通過隨機(jī)森林分布(Random Forest)[8]算法挑選出來的對于分組貢獻(xiàn)度最大的30個(gè)物種,并根據(jù)這30個(gè)物種的貢獻(xiàn)度權(quán)重高低進(jìn)行排序。 又例如優(yōu)勢物種間相關(guān)性計(jì)算以及網(wǎng)絡(luò)圖的繪制: 上圖中節(jié)點(diǎn)代表各優(yōu)勢菌屬,以不同的顏色標(biāo)識,節(jié)點(diǎn)之間的連接表明兩個(gè)屬之間存在相關(guān)性,紅線表明正相關(guān),綠線(灰色線)表明負(fù)相關(guān),線的粗細(xì)代表相關(guān)性高低。相同顏色的點(diǎn),代表這些屬均分類為相同的門。通過某節(jié)點(diǎn)的連接越多,表明該屬于菌群中其它成員的關(guān)聯(lián)越多。 通過以上的信息,不知道各位對于多樣性的分析有沒有更了解一些了呢?藏貨很多, 今天只是一個(gè)粗略的分享,并且在這些高頻“詞匯“下其實(shí)還隱藏有很多更深的問題,值得我們?nèi)ヒ灰惶接?。例如還有一些更為延伸的研究方向例如:Picrust功能預(yù)測(點(diǎn)擊以往文章了解:微生物16S高分文章必備之-PICRUSt功能預(yù)測 瞬間提高微生物多樣性研究性價(jià)比)、Enterotypes腸型分析、基于OTU或者宏基因組基因集的WGCNA分析等等。 [1] Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data.Philosophical Transactions of the Royal Society of London, 2005, 360(1462): 1935-1943. [2]Girvan M, Newman M E. Community structure in social and biological networks.[J].Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12):7821. [3]Chao A, Shen T J. Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample[J]. Environmental and Ecological Statistics, 2003, 10(4):429-443. [4]Simpson EH. Measure of diversity.Nature, 1949, 163: 688. [5]Chao A. Non-parametric estimation of the classes in a population. Scandinavian Journal of Statistics, 1984, 11(4): 265-270. [6] Ramette A. Ramette A. Multivariate analyses in microbial ecology. FEMS MicrobiolEcol62: 142-160[J]. 2007, 62(2):142-160. [7] Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8):861-874. [8] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32. |
|