多序列比对有3个东西是大家基本认同的:
    1.基因编码区的比对,需要采取基于密码子方式的比对;
    2.目前多序列比对精确度:MAFFT>Muscle>Clustal;
    3.多序列比对尽管是最基础的步骤,但是会影响后续的分析。

    笔者最近发现了一个有趣的现象,不过也仅仅是这次处理的数据集才遇到,这让我重新审视了序列比对这个东西—-多序列比对尽可能选用精确度高的工具,且一定要仔细检查比对后的Alignment文件。
    因为有时,对于某些数据,某种工具和某种方法比对的结果不一定是正常的(准确的)。

    好了,接下来,我们故事开始:
    笔者从NCBI下载了70条某个基因的基因编码区序列(已知是高度相似的),每条序列都从ATG起始密码子开始,如下:(截图仅显示了42条)
    image.png

    首先,选用了MEGA X里的Muscle(Codons),也就是Muscle的基于密码子的比对方法,比对结果部分截图如下:
    image.png
    看上去好像有哪里不对劲,竟然在起始密码子(ATG)前引入了gap,尽管引入的gap数量是3个(3的倍数),但是gap引入位置不对,比对结果不合理,或者说前面9个碱基没比对正确

    换用MEGA X里的ClustalW(Codons)进行多序列比对,比对结果如下:
    image.png
    还是有很多序列在起始密码子(ATG)前引入了gap,比对结果不合理,和Muscle(Codons)的结果相差无几。

    那如果不用基于密码子的方式比对呢?
    换用MEGA X里的Muscle,这次采用不基于密码子的比对方法,比对结果如下:
    image.png
    嗯,结果看上去,所有序列都是以ATG起始了,而且引入的gap的数量也是3的倍数。
    接下来看看,这种引入gap从生物学角度来看是否合理:
    EF203067和MF094681为例,其生物学意义是,如果考虑EF203067来自于MF094681的话,MF094681在其第二个密码子ACT在A和C之间插入了3个碱基(GTA),于是产生了EF203067的前9个碱基ATGAGTACT,相比于MF094681的前6个碱基“ATGACT”而言,这种插入碱基的方式使得EF203067在该位置只是多了一个氨基酸而并没有发生移码突变,其他序列的插入碱基方式也没有造成移码突变,而这些序列已知是高度相似的,所以这种通过插入碱基而突变的方式是合理的。
    尽管有一定的生物学意义,但是基因编码区不基于密码方式子比对,结果可能不太可靠。

    换用MEGA X里的ClustalW,也采用不基于密码子的比对方法,结果如下:
    image.png
    和ClustalW基于密码子的比对方法的结果差不多,在ATG前引入了gap,比对结果不合理。

    本示例中,为什么Muscle和ClustalW采用了基于密码子的方式比对结果不正常?
    主要是数据的引起的。
    由于这个插入发生的位置比较特殊,非常靠前,而比对中引入gap本身就是一个带有概率的随机事件,所以Muscle和ClustalW在尽管采取了基于密码子的方式比对,结果还是不尽人意。
    通过上面的Muscle(Codons)和ClustalW(Codons)比对的结果,我们可以大致推测,自然界中真实的情况可能是,有几条序列在起始密码子ATG后面,从第4个碱基开始,直接插入了3个碱基,导致他们比其他序列在这个位置多了3个碱基(即多了1个氨基酸)。

    这个故事告诉我们:一定要仔细检查比对后的Alignment文件 !!!
    既然问题已经发生了,重点在于怎么解决这个问题?
    很明显,Muscle和ClustalW对于笔者的数据已经败下阵来,那MAFFT怎么样?
    可是,好像MAFFT没有基于密码子的方式比对呀?
    答案是有的,最新的两款生物信息学工具Phylosuite(张东博士)和BioAider(笔者),里面提供的MAFFT模块增加了MAFFT基于密码子的方式进行多序列比对。

    使用东哥软件Phylosuite里的MAFFT基于密码子方式比对,将比对后的结果在MEGA X里显示如下:
    image.png
    注:笔者的数据分别用MAFFT里的E-INS-i策略(局部比对)和G-INS-i(全局比对)进行了测试,两种不同策略下,其结果是一模一样的,如上图所示。

    使用MAFFT基于密码子的方式比对基因编码区,其结果基本正常了,而且证实了之前笔者的推测:自然界中真实的情况应该是,有几条序列相比其他序列在第1个密码子(ATG)的后面直接增加了3个碱基(比如EF203067),而那些少了3个碱基的序列(图中占大多数的那些序列)在比对时会在那个位置插入3个gap(-)。

    多序列比对,还是推荐MAFFT,基因编码区的多序列比对,更加推荐使用MAFFT基于密码子的方式比对。

    欢迎转载,请注明出处!