系統(tǒng)發(fā)育學(xué)概念
系統(tǒng)進(jìn)化樹介紹
系統(tǒng)發(fā)生樹有許多形式:可能是有根樹(rooted tree ,具有外群),也可能是無根樹(unrooted tree,沒有外群); · 無根樹:僅能表明分類單元之間分類關(guān)系,無法反應(yīng)分化的先后 系統(tǒng)發(fā)生樹性質(zhì)(1)如果是一棵有根樹,則樹根代表在進(jìn)化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元; (2)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹; (3)從根節(jié)點出發(fā),到任何一個節(jié)點的路徑均指明進(jìn)化時間或者進(jìn)化距離。 距離和特征用于構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)分成兩類:(1)距離(distances)數(shù)據(jù),常用距離矩陣描述,表示兩個數(shù)據(jù)集之間所有兩兩差異;(2)特征(characters)數(shù)據(jù),表示分子所具有的特征。 分子系統(tǒng)發(fā)生分析的目的是探討物種之間的進(jìn)化關(guān)系,其分析的對象往往是一組同源的序列。這些序列取自于不同生物基因組的共同位點。序列比對是進(jìn)行同源分析的一種基本手段,是進(jìn)行系統(tǒng)發(fā)生分析的基礎(chǔ),一般采用基于兩兩比對漸進(jìn)的多重序列比對方法。通過序列的比對,可以分析序列之間的差異,計算序列之間的距離。 常用比對軟件系統(tǒng)發(fā)育樹構(gòu)建的第一步是進(jìn)行多序列比對,常用的軟件包括MEGA, cluster X,Muscle,phylip等。
系統(tǒng)發(fā)育樹構(gòu)建方法1、Distance-based methods 距離法: 2、Character-based methods 特征法: 其中非加權(quán)分組平均法已經(jīng)較少使用。一般來講,如果模型合適,最大似然法的效果較好。對近緣序列,有人喜歡最大簡約法,因為用的假設(shè)最少。最大簡約法,一般不用在遠(yuǎn)緣序列上,這時一般用鄰位歸并法或最大似然法.對相似度很低的序列,鄰位歸并法往往出現(xiàn)Long-branch attraction(LBA,長枝吸引現(xiàn)象),有時嚴(yán)重干擾進(jìn)化樹的構(gòu)建。貝葉斯的方法則太慢。對于各種方法構(gòu)建分子進(jìn)化樹的準(zhǔn)確性,一篇綜述(Hall BG. Mol Biol Evol 2005,22(3):792-802)認(rèn)為貝葉斯的方法最好,其次是最大似然法,然后是MP。其實如果序列的相似性較高,各種方法都會得到不錯的結(jié)果,模型間的差別也不大。不過現(xiàn)在文章普遍使用的最大似然法模型。 進(jìn)化樹評估在實際應(yīng)用中,我們需要評價一棵系統(tǒng)發(fā)生樹的可靠性,這涉及兩個問題,即整棵樹和它的組成部分(分支)的置信度是多少?這樣得到正確的樹的可能性比隨機(jī)選出一棵是正確的樹的可能性大多少? 一種叫做自舉法(bootstrapping)的有效的重采樣技術(shù)已成為解決第一個問題的主要方法。自舉檢驗(bootstrap test) 是一種重抽樣技術(shù),能粗略地量化這些置信度水平。造成統(tǒng)計誤差的一個原因是數(shù)據(jù)采樣誤差,測量采樣誤差的一個好方法是,對于分析的對象多次采樣,比較不同樣本得到的估計值,估計值的分布可以說明一些問題?,F(xiàn)在一般文章要求Bootstrap值1000。雖然根據(jù)嚴(yán)格的統(tǒng)計學(xué)概念,自展值要大于95%才較為可信,然而在實際應(yīng)用中,特別是微生物等相似度比較大的分類中,一般大于50%就認(rèn)為可信(小于50%隱去)。 下一次文章會給大家?guī)砣后w遺傳中利用SNP calling的數(shù)據(jù)來構(gòu)建進(jìn)化樹的流程。 |
|