构建系统发生树的意义

对于一个未知的基因或蛋白质序列，确定其亲缘关系最近的物种。
预测一个新发现的基因或蛋白质功能。
有助于预测一个分子功能的走势。
追溯一个基因的起源

什么是系统发生树

015. 系统发生树 - 图1
现有生物都在叶节点上
015. 系统发生树 - 图2

各种各样的系统发生树

015. 系统发生树 - 图3

系统发生树的特性

015. 系统发生树 - 图4

对于系统发生树来说，根的位置是主观的
做有根树，需要指定外类群
因为我们知道外类群和现有的研究对象一定不是一个物种，因此分叉出来的那个节点，就一定是根。

分子树与物种树的差别

015. 系统发生树 - 图7

构建系统发生树

015. 系统发生树 - 图8

按速度来看：基于距离的方法> 最大简约法> 最大似然法> 贝叶斯推断法
但相应来看，速度越快，其准确度也越低。

序列的选择

015. 系统发生树 - 图9
看DNA 序列一致度是否大于70 %。

构建系统发生树的软件

015. 系统发生树 - 图10

UPGMA 法

015. 系统发生树 - 图11

015. 系统发生树 - 图12

树上枝条的长短，直接反映了它们与共同祖先的距离。

使用mega 构建系统发生树

通过mega 官网，就可以直接下载这款软件了。（我使用的是mac 的图形化版本）
首先我们需要准备一份fasta 格式的文件，里面包含了需要进行比对的序列的全部信息。
导入序列后，选择align 就可以进行比对。
进入后再在alignment 的操作栏中选定align by clustalW，就可以使用该方法进行多序列比对了。
将比对后的比对文件导出为MEGA format
将新的比对文件使用mega 打开（可以直接拖拽至窗口）

015. 系统发生树 - 图13
其中 TA 选项可以将相同的比对转换为-，不同的再特别标记出来。
C 标记保守序列，V 标记不保守序列。

015. 系统发生树 - 图14
还可以为它们进行分组。
一般这里会将树名简短一些，方便后期显示。

使用phylogeny 进行建树，使用默认参数即可。

test of phylogeny：建树的检验方法，默认不进行检验。
我们可以修改为Bootstrap method，通常为100的倍数，设定500。
通过该检验方法得到的系统发生树的每个节点都会标记一个数字，它代表了指定次数次所得到的系统发生树都百分之多少都有该节点，一般70%才可信。

Substitutions Model：选择计算遗传距离时使用的计算模型。理论上应该选择各种模型，根据各组结果，进行选定。但一般实际操作直接选用p-distance。

Gaps/Missing Data Treatment：大多数建树方法会要求删除有空位的链。根据统计方法，比如N-J方法，选择partial deletion即可，删除程度定位50%即可。

选择compute
一共有两个树
树中节点的数字表示，经过步长检验，有多少树包含该节点。
原始树为步长检验的五百颗树中的一个。未经过合并，因此树的长短可以精确代表遗传距离。
此外还可以设定发生树的图形，可以转变树枝或者选择自定义的树干。