遗传进化分析 - 四种建树方法比较 - 《生信札记》

一.四种方法比较
二.现有的软件例举
三.相比NJ法，构建系统发育树建议使用ML法或者BI法

**前言：NJ法，ML法，BI法是目前主流的建树方法，MP法目前相对用得较少，每种方法都有它一定的优点，同时也存在着缺点。对于相同的数据集，推荐用两种及两种以上的方法建系统发育树进行分析，互相比照。**

一.四种方法比较

方法	基本特征	适用范围	优点	缺点
NJ	不需要分子钟假设，是基于最小进化原理，进行类的合并时，不仅要求待合并的类是相近的，而且要求待合并的类远离其他的类。	远缘序列，但进化距离不大，信息位点少的短序列。	假设少，树的构建相对准确，计算速度快，只得一颗树，可以分析较多的序列，运行速度优于最大简约法	序列上的所有位点等同对待，且所分析的序列的进化距离不能太大
MP	基于进化过程中碱基替代数目最少这一假说，不需要替代模型，对所有可能的拓扑结构进行计算，并计算出所需替代数最小的那个拓扑结构，作为最优树	近缘序列物种序列的数目≤12。残基差别少，具有近似的具有近似的变异率，包含信息位点比较多的长序列。	善于分析某些特殊的分子数据如插入、缺失等序列有用。	只适于序列数目N≤12。存在较多回复突变或平行突变时，结果较差。推测的树不是唯一的，变异大的序列会出现长枝吸引而导致建树错误。
ML	依赖于某一个特定的替代模型来分析给定的一组序列数据，使得获得的每一个拓扑结构的似然率都为最大值，然后再挑出其中似然率最大的拓扑结构作为最优树。	特定的替代的模型，有模型有模型的情况下ML是与进化事实最吻合的树。	很好的统计学基础，大样本时似然法可以获得参数统计的最小方差，在进化模型确定的情况下，ML法是与进化事实吻合最好的建树算法.	所有可能的系统发育树都计算似然函数，计算量大，耗时时间长。依赖于合适的替代模型。
BI	基因进化模型的统计推论法，通过后验概率直观反映出各分支的可靠性，而不需要自举法检验。	大而复杂的数据集	具有坚实的数学和统计学基础，可以处理复杂和接近实际情况的进化模型	对进化模型敏感，BI法中指定的每个氨基酸的后验概率建立在许多假设条件下，现实中可能不成立。

二.现有的软件例举

建树方法	软件	序列格式
邻接法(NJ)	Phylip/MEGA	fasta/phy
最大似然法(ML)	RaxML/PamL/PhyML/Paup/IQ-tree/MEGA/Phylip/*PhyloSuite	fasta/phy
最大简约法(MP)	Phylip/Paup/*MEGA	fasta/phy
贝叶斯法	MrBayes/PhyloSuite	nexus
溯祖法	BEAST系列软件	nexus

注：标红色为该方法推荐的专业软件！还有其他不常用软件没有在这里列出。

三.相比NJ法，构建系统发育树建议使用ML法或者BI法

Model-based algorithms (Bayesian inference, BI or maximum likelihood, ML) would be preferred to use to draw pertinent conclusions, because they are more robust than the Neighbor Joining (NJ) algorithm, which is a genetic distance-based method.   
To draw pertinent conclusions, more robust model-based phylogenetic algorithms, such as Bayesian inference (BI) or maximum likelihood (ML), would be preferred to use instead of Neighbor joining (NJ), which is a genetic distance-based method.
The only reason I can think of to use neighbor joining (NJ) is that the authors have purely distance data with no access to primary sequence data. Thus, the authors should use more robust reconstruction methods (i.e. ML and Bayesian algorithms) to draw pertinent conclusions.

欢迎转载，请注明出处。