重要知識點(diǎn)!!微生物多樣性分析詳解

科學(xué)社小編 2018-01-16

展開全文

微生物多樣性或者宏基因組分析中，往往有幾個(gè)出現(xiàn)頻率很高的詞，比如 OTU，群落結(jié)構(gòu)，alpha多樣性， beta多樣性。今天就來通過分析思路上（主要圍繞微生物多樣性）給大家解釋一下這些高頻詞匯。

一、OTU分類

OTU[1]全稱為Operational Taxonomic Unit, 直譯過來是操作分類單元，其實(shí)是人為進(jìn)行定義的分類單元，即一般是在微生物多樣性分析中，對序列以97%的相似度進(jìn)行Cluster聚類。

微生物的研究我們往往是在生境（例如人體腸道樣本，可以把腸道環(huán)境就是一個(gè)生境；又如某一區(qū)域土壤取樣，可以把區(qū)域土壤看做一個(gè)生境）的群落結(jié)構(gòu)層面來關(guān)注。而類似生境下的群落構(gòu)成是有極大的相似性的。

所以多樣性研究的方法是：首先對所有樣本的valid tags（tags這里指雙端reads拼接后的序列）以97%相似度進(jìn)行cluster聚類，分類OTU。例如9萬條tags可能cluster到2000個(gè)OTU單元。然后從每個(gè)OTU分類單元中挑選序列最長的或者是Abundance最大的作為代表序列。通過這2000個(gè)代表序列和數(shù)據(jù)庫比對并進(jìn)行注釋。

基于OTU水平可展示的分析有：

1. 基于OTU的venn圖和花瓣圖： 可以統(tǒng)計(jì)不同樣本或者分組間特有的OTU和共有的OTU。

2. 基于OTU代表序列的系統(tǒng)發(fā)育樹構(gòu)建：可以挑選出豐度較高的OTU，并構(gòu)建這些OTU的系統(tǒng)發(fā)育樹，并輔助Heatmap結(jié)果展示。相對高低豐度OTU在不同樣本或分組一目了然。

3. 基于OTU的熱圖：可以直觀展示OTU在不同樣本或者分組的豐度差異。

二、群落結(jié)構(gòu)

community structure即群落結(jié)構(gòu)[2]。生境內(nèi)微生物環(huán)境可以看做一個(gè)大的生態(tài)生物群落，而這些群落是由各種優(yōu)勢菌屬以及低豐度菌屬構(gòu)成，不同生境的微生物種類以及微生物的豐度是不同的，而這些多種類不同豐度的菌屬的構(gòu)成就可以理解為生境的群落結(jié)構(gòu)。

一般進(jìn)行群落結(jié)構(gòu)分析，可以從幾個(gè)角度來入手：

1. 群落結(jié)構(gòu)分布柱狀圖：可以展示不同樣本或者分組整體群落的構(gòu)成，以及構(gòu)成之間的差異。

2. 群落結(jié)構(gòu)分布Heatmap圖：可直觀展示物種在門綱目科屬水平的豐度高低。

3. 群落結(jié)構(gòu)分布三元相圖 ： Ternary Plot 是用一個(gè)等邊三角形描述三個(gè)變量的不同屬性的比率關(guān)系，在分析中可以根據(jù)物種分類或功能信息對三個(gè)或三組樣品的物種或功能組成進(jìn)行比較分析，通過三角圖可以直觀的顯示出不同物種或功能在樣品中的比重和關(guān)系。三元相圖主要側(cè)重于展示物種在三個(gè)不同的樣本或者分組的分布情況。

三、alpha多樣性

alpha、beta多樣性均來源于生態(tài)學(xué)，可以理解為兩個(gè)不同的空間尺度。alpha多樣性一般指生境內(nèi)物種的多樣性程度，即不側(cè)重于比較，而只是評估生境內(nèi)的多樣性程度，而beta多樣性側(cè)重于對不同生境的多樣性進(jìn)行比較。

alpha多樣性有很多評估指數(shù)：observed species即觀測到的OTUs數(shù)目、shannon香農(nóng)指數(shù)[3]、simpson[4]指數(shù)、chao[5]指數(shù)、ACE指數(shù)等等……

不同指數(shù)的側(cè)重點(diǎn)不同，以及計(jì)算公式也是不同?？偟膩碚f：Observed species即為分類OTUs的數(shù)目；Shannon指數(shù)可同時(shí)反映群落的物種多樣性高低以及均勻度；Chao指數(shù)算法是通過計(jì)算群落中只檢測到1次和2次的OTU數(shù)目來估計(jì)群落中實(shí)際存在的物種數(shù)。因此該指數(shù)對于痕量菌（低豐度物種）相對比較敏感。

alpha多樣性分析可以從哪幾個(gè)角度來展示呢？

1. 可以計(jì)算出各個(gè)指數(shù)的數(shù)值，例如長這樣：

得到這樣一張指數(shù)表格，就可以評估出樣本的多樣性程度。當(dāng)然如果需要從指數(shù)數(shù)值上對不同樣本的多樣性程度或者均勻度進(jìn)行比較，可以首先對各個(gè)樣本中的序列進(jìn)行隨機(jī)抽齊操作，在同等的測序量下，比較樣本間的多樣性指數(shù)高低。

2. 可以通過多樣性指數(shù)對測序的飽和度進(jìn)行評估。例如下圖為稀釋曲線，縱坐標(biāo)為observed species即觀測OTU的個(gè)數(shù)，橫軸為對序列集進(jìn)行隨機(jī)抽樣的抽樣深度。稀釋曲線展示的為在不同抽樣深度下構(gòu)建OTU的個(gè)數(shù)。該曲線可以對測序飽和度做一個(gè)初步評估，如果最終曲線趨于水平，代表當(dāng)前的測序量飽和度足夠。

3. 同時(shí)可以比較不同處理組的多樣性指數(shù)是否在兩組間有顯著性差異。如下圖，為2組（182個(gè)）樣本的shannon指數(shù)Boxplot圖。箱線圖上的每個(gè)點(diǎn)代表一個(gè)樣本。通過ANOVA差異統(tǒng)計(jì)方法，計(jì)算出兩組的shannon指數(shù)差異p value為1.38*10-34。

四、beta多樣性分析

beta多樣性側(cè)重于不同生境的群落構(gòu)成的比較。常用于展示beta多樣性的分析方法有：

1. PCA[6]主成分分析。主成分分析是一項(xiàng)基于線性分析的模型，并不依賴于距離矩陣算法。

2. 基于距離矩陣算法的PCoA[6]分析以及NMDS分析。與PCA主成分分析不同，PCoA以及NMDS可以通過不同的矩陣算法（Unweighted Unifrac、 Weighted Unifrac、 Bray Curtis、Binary Jaccard、 Euclidean等等）來比較樣本間的相似性。

3. RDA/CCA分析。即冗余分析（Redundancy analysis，RDA）、典型相關(guān)分析（Canonical analysis）。即引入了環(huán)境因子的變量，通過菌群結(jié)構(gòu)數(shù)據(jù)與某種給定的因素互相擬合，通過置換檢驗(yàn)來探尋樣本、物種、環(huán)境兩兩之間的關(guān)系，或者三者之間的關(guān)系。

但是這么多beta多樣性比較的算法，應(yīng)該怎么取舍呢？微生物多樣性研究一般建議結(jié)合實(shí)驗(yàn)設(shè)計(jì)，考慮多種矩陣算法，選取最合適的一種。例如Unifrac距離有權(quán)重和非權(quán)重方法，非權(quán)重方法側(cè)重于只考慮物種有無，即群落物種種類差異；而權(quán)重算法不僅考慮物種有無，也會考慮物種豐度的高低。而有些處理因素主要會引起微生物物種豐度的變化，這種情況下可能更適合于權(quán)重算法。

五、統(tǒng)計(jì)分析（差異統(tǒng)計(jì)或者分類）

微生物多元變量統(tǒng)計(jì)分析，即根據(jù)不同的分組尋找組間差異物種，或者尋找不同處理組的biomarker。統(tǒng)計(jì)分析有基于物種豐度（ANOVA、G_test、Metastat等），也有基于距離矩陣（Adonis、ANOSIM等）的算法。同時(shí)也可分為參數(shù)檢驗(yàn)的統(tǒng)計(jì)方法以及非參數(shù)檢驗(yàn)統(tǒng)計(jì)算法。

另外還有一些對于分類評估的統(tǒng)計(jì)，例如ROC曲線分析。以及其他的一些統(tǒng)計(jì)方法： 隨機(jī)森林分布、LEfSe分析等。（想了解LEfSe分析么？想自己來做分析么？請點(diǎn)擊以往微信文章：【干貨】微生物高分文章必備分析LEfSe）

上圖1為ROC[7]分析，即可以對于分類進(jìn)行評估，例如在土壤不同pH值因素以及不同溫度的因素下，通過群落物種分布評估這兩個(gè)處理下的分類效果。如果ROC曲線大于0.5說明分類效果較好。上圖2為通過隨機(jī)森林分布（Random Forest）[8]算法挑選出來的對于分組貢獻(xiàn)度最大的30個(gè)物種，并根據(jù)這30個(gè)物種的貢獻(xiàn)度權(quán)重高低進(jìn)行排序。

又例如優(yōu)勢物種間相關(guān)性計(jì)算以及網(wǎng)絡(luò)圖的繪制：

上圖中節(jié)點(diǎn)代表各優(yōu)勢菌屬，以不同的顏色標(biāo)識，節(jié)點(diǎn)之間的連接表明兩個(gè)屬之間存在相關(guān)性，紅線表明正相關(guān)，綠線（灰色線）表明負(fù)相關(guān)，線的粗細(xì)代表相關(guān)性高低。相同顏色的點(diǎn)，代表這些屬均分類為相同的門。通過某節(jié)點(diǎn)的連接越多，表明該屬于菌群中其它成員的關(guān)聯(lián)越多。

通過以上的信息，不知道各位對于多樣性的分析有沒有更了解一些了呢？藏貨很多，

今天只是一個(gè)粗略的分享，并且在這些高頻“詞匯“下其實(shí)還隱藏有很多更深的問題，值得我們?nèi)ヒ灰惶接?。例如還有一些更為延伸的研究方向例如：Picrust功能預(yù)測（點(diǎn)擊以往文章了解：微生物16S高分文章必備之-PICRUSt功能預(yù)測瞬間提高微生物多樣性研究性價(jià)比）、Enterotypes腸型分析、基于OTU或者宏基因組基因集的WGCNA分析等等。

[1] Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data.Philosophical Transactions of the Royal Society of London, 2005, 360(1462): 1935-1943.

[2]Girvan M, Newman M E. Community structure in social and biological networks.[J].Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12):7821.

[3]Chao A, Shen T J. Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample[J]. Environmental and Ecological Statistics, 2003, 10(4):429-443.

[4]Simpson EH. Measure of diversity.Nature, 1949, 163: 688.

[5]Chao A. Non-parametric estimation of the classes in a population. Scandinavian Journal of Statistics, 1984, 11(4): 265-270.

[6] Ramette A. Ramette A. Multivariate analyses in microbial ecology. FEMS MicrobiolEcol62: 142-160[J]. 2007, 62(2):142-160.

[7] Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8):861-874.

[8] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：科學(xué)社小編 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)