Phylogenetic Analysis by Maximum Likelihood (PAML)

将最大似然法用于系统发育分析

PAML 是一个用最大似然法来对 DNA 和蛋白质序列进行系统发育分析的软件包,它可以用来估计参数和检验假设,以研究进化过程,目前是由杨子恒团队维护的。

杨子恒,1964 年出生于中国甘肃省,生物学家,英国皇家学会院士 ,英国伦敦大学学院RA Fisher统计遗传学讲座教授,中国科学院动物研究所计算与进化生物学中心主任。

PAML 软件包目前包含如下程序:baseml,basemlg,codeml,evolver,pamp,yn00,mcmctree,和chi2,最主要的是 baseml 和 codeml。

baseml是计算核酸的,codeml 是由两个旧程序合并构成,分别是codonml(对蛋白编码DNA序列执行密码子替代模型)和aaml(用来执行氨基酸序列模型)。

举个例子说明:利用codeml计算dN/dS

蛋白编码基因(protein coding sequence)的自然选择压力水平可以通过dN/dS(ω)值的大小来衡量,其中,dS代表同义替换率(synonymous rate),dN代表非同义替换率(non-synonymous rate)。 在没有受到选择压力时,同义替换率和非同义替换率相等,此时dN/dS = 1; 当受到负选择或净化选择压力时,自然选择会阻止氨基酸发生改变,同义替换率会大于非同义替换率,即dN/dS < 1; 当受到正选择压力时,氨基酸的置换率会受自然选择的青睐,即蛋白功能可能会发生适应性改变,此时dN/dS > 1。

以前学习过密码子表,好几个密码子会对应同一个氨基酸,他们之中的某一个字母的替换就是同义替,比如说TTT和TTC都编码苯丙氨酸,那么由T突变到C就是统一替换;比如说,TTT编码苯丙氨酸,CTT编码亮氨酸,那么由T突变到C就是非同义替换。

通过codeml内的最大似然估计法的模型的估计出祖先的序列,然后与现有的提供的个体的序列进行比较,得到一个 ω 值,这个 ω 值对应了dN/dS ,所以,这个软件的本质是跟统计相关的,在一定的概率下去估计。

如何做?

  • 需要准备个体的序列文件,比如说8个物种,在一个文件里面

    1. 8 462
    2. Hsa_Human AAGGTCTTTGAAAGGTGTGAGTTGGCCAGAACT...
    3. Hla_gibbon AAGGTCTTTGAAAGGTGTGAGTTGGCCAGAACT...
    4. Cgu/Can_colobus AAGATCTTTGAAAGGTGTGAGTTGGCCAGAACT...
    5. Pne_langur AAGATCTTTGAAAGGTGTGAGTTGGCCAGAACT...
    6. Mmu_rhesus AAGATCTTTGAAAGGTGTGAGTTGGCCAGAACT...
    7. Ssc_squirrelM AAGGTCTTCGAAAGGTGTGAGTTGGCCAGAACT...
    8. Cja_marmoset AAGGTCTTTGAAAGGTGTGAGTTGGCCAGAACT...
  • 「一周文献」第 7 期 - 图1

  • 树文件,就是经常看见的像树状结构一样的

「一周文献」第 7 期 - 图2

  • Control File
    这个文件里面是你要执行的参数设置,
    输入输出参数:输入序列路径;输出序列路径等等
    数据使用说明参数:
    seqtype,设置输入的多序列比对数据的类型:1,密码子数据;2,氨基酸数据;3,输入数据虽然为密码子序列,但先转换为氨基酸序列后再进行分析。
    解读结果
    观看的教学视频是根据 likelihood ratio 计算的,计算这个的可信度。

参考链接:
Phylogenetic Analysis by Maximum Likelihood (PAML)
PAML中文手册
系统发育分析软件PAML的安装和简介
PAML选择压力分析
【PAML教程】利用codeml计算dN/dS