群體遺傳專題：系統(tǒng)發(fā)育基礎(chǔ)知識介紹

yjt2004us 2018-06-09

展開全文

系統(tǒng)發(fā)育也是群體遺傳三劍客中重要的一環(huán)，今天給大家?guī)硪恍┗A(chǔ)介紹，助大家快速入門理解。

系統(tǒng)發(fā)育學(xué)概念

系統(tǒng)發(fā)生（或種系發(fā)生、系統(tǒng)發(fā)育，phylogeny）是指生物形成或進(jìn)化的歷史。系統(tǒng)發(fā)生學(xué)(phylogenetics)研究物種之間的進(jìn)化關(guān)系，其基本思想是比較物種的特征，并認(rèn)為特征相似的物種在遺傳學(xué)上接近。系統(tǒng)發(fā)生研究的結(jié)果往往以系統(tǒng)發(fā)生樹（phylogenetic tree）表示，用它描述物種之間的進(jìn)化關(guān)系。
所有的生物都可以追溯到共同祖先，生物的產(chǎn)生和分化就像樹一樣生長、分叉。自然，我們以樹的形式表現(xiàn)生物之間的進(jìn)化關(guān)系。
系統(tǒng)發(fā)育樹又稱為系統(tǒng)進(jìn)化樹，是用一種類似樹狀分支的圖形來概括各物種之間的親緣關(guān)系，可用來描述物種之間的進(jìn)化關(guān)系。

系統(tǒng)進(jìn)化樹介紹

一般來說，系統(tǒng)發(fā)生樹是一種二叉樹。所謂樹，實際上是一個無向非循環(huán)圖。系統(tǒng)發(fā)生樹由一系列節(jié)點（nodes）和分支（branches ）組成，其中每個節(jié)點代表一個分類單元（物種或序列），而節(jié)點之間的連線代表物種之間的進(jìn)化關(guān)系。
樹的節(jié)點又分為外部節(jié)點（terminal node）和內(nèi)部節(jié)點（internal node）。在一般情況下，外部節(jié)點代表實際觀察到的分類單元，而內(nèi)部節(jié)點又稱為分支點，它代表了進(jìn)化事件發(fā)生的位置，或代表分類單元進(jìn)化歷程中的祖先。
基于單個同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹稱為基因樹（gene tree），這比稱作物種樹（species tree）更為合理。因為這種樹代表的僅僅是單個基因的進(jìn)化歷史，而不是它所在物種的進(jìn)化歷史。物種樹一般最好是通過綜合多個基因數(shù)據(jù)的分析結(jié)果而產(chǎn)生。

系統(tǒng)發(fā)生樹有許多形式：可能是有根樹（rooted tree ，具有外群），也可能是無根樹（unrooted tree，沒有外群）；

· 無根樹：僅能表明分類單元之間分類關(guān)系，無法反應(yīng)分化的先后
· 有根樹：同時反映了分類單元間的分類關(guān)系和分化先后，因此可以用于分化時間的推斷
· 有根樹的根節(jié)點的選擇：研究材料的全部分類單元的最近共同祖先

系統(tǒng)發(fā)生樹性質(zhì)

（1）如果是一棵有根樹，則樹根代表在進(jìn)化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元；

（2）如果找不到可以作為樹根的單元，則系統(tǒng)發(fā)生樹是無根樹；

（3）從根節(jié)點出發(fā)，到任何一個節(jié)點的路徑均指明進(jìn)化時間或者進(jìn)化距離。

距離和特征

用于構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)分成兩類：（1）距離（distances）數(shù)據(jù)，常用距離矩陣描述，表示兩個數(shù)據(jù)集之間所有兩兩差異；（2）特征(characters)數(shù)據(jù)，表示分子所具有的特征。

分子系統(tǒng)發(fā)生分析的目的是探討物種之間的進(jìn)化關(guān)系，其分析的對象往往是一組同源的序列。這些序列取自于不同生物基因組的共同位點。序列比對是進(jìn)行同源分析的一種基本手段，是進(jìn)行系統(tǒng)發(fā)生分析的基礎(chǔ)，一般采用基于兩兩比對漸進(jìn)的多重序列比對方法。通過序列的比對，可以分析序列之間的差異，計算序列之間的距離。

常用比對軟件

系統(tǒng)發(fā)育樹構(gòu)建的第一步是進(jìn)行多序列比對，常用的軟件包括MEGA， cluster X，Muscle，phylip等。

軟件	優(yōu)點	缺點
MEGA	最常用的比對建樹軟件，可視化圖形界面，簡單方便	比對速度慢，輸出格式單一
Clusterx	可視化圖形界面，可輸出多種格式（如phy）	比對速度較慢
Muscle/phylip	比對速度快	沒有可視化界面，需要有一定編程基礎(chǔ)去輸入代碼運用

系統(tǒng)發(fā)育樹構(gòu)建方法

1、Distance-based methods 距離法：
（基于距離的方法：首先通過各個物種之間的比較，根據(jù)一定的假設(shè)（進(jìn)化距離模型）推導(dǎo)得出分類群之間的進(jìn)化距離，構(gòu)建一個進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個矩陣中的進(jìn)化距離關(guān)系。）
· Unweightedpair group method using arithmetic average(UPGMA)非加權(quán)分組平均法
· Minimum evolution(ME)最小進(jìn)化法
· Neighbor joining(NJ)鄰位歸并法

2、Character-based methods 特征法：
（基于特征的方法：不計算序列間的距離，而是將序列中有差異的位點作為單獨的特征，并根據(jù)這些特征來建樹。）
· Maximum parsimony(MP) 最大簡約法
· Maximum likelihood(ML) 最大似然法

其中非加權(quán)分組平均法已經(jīng)較少使用。一般來講，如果模型合適，最大似然法的效果較好。對近緣序列，有人喜歡最大簡約法，因為用的假設(shè)最少。最大簡約法，一般不用在遠(yuǎn)緣序列上，這時一般用鄰位歸并法或最大似然法.對相似度很低的序列，鄰位歸并法往往出現(xiàn)Long-branch attraction（LBA，長枝吸引現(xiàn)象），有時嚴(yán)重干擾進(jìn)化樹的構(gòu)建。貝葉斯的方法則太慢。對于各種方法構(gòu)建分子進(jìn)化樹的準(zhǔn)確性，一篇綜述（Hall BG. Mol Biol Evol 2005，22（3）：792-802）認(rèn)為貝葉斯的方法最好，其次是最大似然法，然后是MP。其實如果序列的相似性較高，各種方法都會得到不錯的結(jié)果，模型間的差別也不大。不過現(xiàn)在文章普遍使用的最大似然法模型。

進(jìn)化樹評估

在實際應(yīng)用中，我們需要評價一棵系統(tǒng)發(fā)生樹的可靠性，這涉及兩個問題，即整棵樹和它的組成部分（分支）的置信度是多少？這樣得到正確的樹的可能性比隨機(jī)選出一棵是正確的樹的可能性大多少？

一種叫做自舉法(bootstrapping)的有效的重采樣技術(shù)已成為解決第一個問題的主要方法。自舉檢驗(bootstrap test) 是一種重抽樣技術(shù)，能粗略地量化這些置信度水平。造成統(tǒng)計誤差的一個原因是數(shù)據(jù)采樣誤差，測量采樣誤差的一個好方法是，對于分析的對象多次采樣，比較不同樣本得到的估計值，估計值的分布可以說明一些問題?，F(xiàn)在一般文章要求Bootstrap值1000。雖然根據(jù)嚴(yán)格的統(tǒng)計學(xué)概念，自展值要大于95%才較為可信，然而在實際應(yīng)用中，特別是微生物等相似度比較大的分類中，一般大于50%就認(rèn)為可信（小于50%隱去）。

下一次文章會給大家?guī)砣后w遺傳中利用SNP calling的數(shù)據(jù)來構(gòu)建進(jìn)化樹的流程。