前言:MAFFT做多序列比对的精确度是目前公认最高的,需要调节的参数比较少,其中最重要的是比对策略的选取,其他参数选择默认问题不大。本文从MAFFT各版本原文文献出发,介绍不同比对策略在原理上差异以及对序列长度和条数的要求。为了方便大家理解,特意选择了MAFFT 7.0在线版进行说明,掌握了在线版的使用,本地版的使用便显得非常简单了。
MAFFT 7.0 在线版提供两种方法,渐进方法(Progressive methods)和迭代细化方法(Iterative refinement methods)。Auto模式下默认方法的是采用FFT-NS- 2策略并且参数是: GOP是1.53,GEP是0.123,矩阵是BLOSUM62,这是FFT-NS- 2 策略下的最佳参数 。
下图为MAFFT 7.0 在线版截图,Mafft7.0在线版网址:https://mafft.cbrc.jp/alignment/server/index.html
一.2002年的最初MAFFT版本
mafft(2002,describes FFT-NS-1, FFT-NS-2 and FFT-NS-i).pdf
2002年的版本总的原理是基于快速傅里叶(FFT)的组对组的比对算法和近似距离算法(6mer 方法)
1. 方法介绍
FFT-NS-1,FFT-NS-2,FFT-NS-i三种比对策略** **
2.总结
速度:FFT-NS-1 > FFT-NS-2 > FFT-NS-i , FFT-NS-1非常快,而FFT-NS-2 和 FFT-NS-i 很吃内存。
精确性:FFT-NS-1 < FFT-NS-2 < FFT-NS-i。
In FFT-NS-i, an initial alignment by FFT-NS-2 is subjected to an iterative refienment process.
(根据你序列的大小,条数自己来权衡。)
二.2005年的MAFFT版本
mafft 5.0(2005,describes G-INS-i, L-INS-i, E-INS-i and Mafft-homologs).pdf
1. 方法介绍
这个版本在之前版本的基础上增加了H-INS-i, F-INS-i 和 G-INS-i三个比对策略,合称[GHF]-INS-i 法。官方号称是提高了比2002年的版本提高了比对的精确度。
2. G-INS-i 策略
(1)该策略**比对完后序列的排列**
其中“X”表示可对齐的残基,“o”表示不可对齐的残基,“-”表示缺口
G-INS-i假设整个区域可以对齐并尝试使用Needleman-Wunsch算法全局对齐它们; 也就是说,必须通过截短侧翼序列来提取一个域的一组序列。
附:G-INS-i assumes that entire region can be aligned and tries to align them globally using the Needleman-Wunsch algorithm; that is, a set of sequences of one domain must be extracted by truncating flanking sequences. In benchmark tests, SABmark and HOMSTRAD correspond to this.
3. 总结
(1)共同点
- 这三种方法在精确度上的差别很小。
- 采取的是一个类似T-Coffe的方法。
- 输出结果里不展示向导树。
(2)不同点
①G-INS-i 的比对策略是全局比对,使用FTT方法和Needleman-Wunsch 算法,而H-INS-i和F-INS-i 的比对策略是局部比对,这两种比对策略的差异在本知识库的另外一篇文章《序列比对前须知
》已经总结,这里不再重复。F-INS-i策略中Smith-Waterman算法被禁用,H-INS-i策略不采用FTT。
②G-INS-i适合数量多的序列,而H-INS-i和F-INS-i适合数量少的序列。
③因为G-INS-i用的是全局比对的策略,所以不适合有大的空位(gap)的序列。虽然G-INS-i采取的是全局比对策略,精确度还是可以的,是全局比对里最精准的方法。
4. 其他
(1)**与先前比较
在先前的版本里,FFT-NS-i 是精确度最高的,这个版本增加的更加提高了精确度。但是如果不需要非常高的精确度,FFT-NS-i是最有用的。**
**(2)与其他软件的比较
他们开发的这个MAFFT与T-Coffe进行了比较。表明MAFFT的PROBCONS工具和三种迭代方法与T-Coffe在准确性上差别不大。
**
三.2007年的MAFFT增加新的方法
1. 介绍
(1)摘要
(2)背景
这个意思就是,MAFFT也好,其他多序列比对软件也好,其本质就是把序列对齐。可是我们用来对齐的序列,核苷酸序列是具有生物学意义的,有时过分追求的序列的对齐反而丢失了其RNA的二级结构特性。自从发现功能性非编码RNA(ncRNAs)以来,把RNA二级结构的信息掺入RNA多序列比对的很有必要性,比如这些序列比对后要用来预测一组同源序列共有的RNA二级结构等等,于是他们增加了新的功能。
2. 原理
这种新方法分位三个步骤进行:
A步骤:多序列比对,使用G-INS-i策略,因为MAFFT的G-INS-i随着输入序列越来越多表现得更好,在具有10或15个序列的情况下,除了LaRA之外,它甚至优于结构化方法。
B步骤: 计算这些序列共有的二级结构
C步骤:RNAcast and RNAforester的组合。使用Q-INS-i,纯粹的基于序列对的比对算法,而不是成对对齐结构区域的算法,再计算序列每个基本配对的概率。
在B步骤和C步骤之间,执行X-INS-i策略,它通过外部比对序列对的方法加载成对对齐的结构区域。
X-INS-i和Q-INS-i,输出多序列比对对齐的结果,将预测的结构信息隐藏在输出结果中。
3. X-INS-i策略和Q-INS-i策略
MAFFT Version 6.5 has two new options, Q-INS-i and X-INS-i, in which secondary strucre information of RNA is considered. These methods are suitable for a global alignment of highly diverged ncRNA sequenes. For relatively conserved RNAs, such as SSU and LSU rRNA, the advantage of these methods is small. Benchmark results can be seen here.
(1)Q-INS-i
Applicable to up to ∼200 sequences × ∼1,000 nt
Uses the Four-way Consistecy objective function (Katoh and Toh, submitted) for incorporating structural information.
请注意这种策略对每条序列大小和条数限制。
(2)X-INS-i
Applicable to up to ∼50 sequences × ∼1,000 nt.
X-INS-i is a framework based on the Four-way Consistecy objective function to build a multiplestructural alignment by combining pairwise structural alignments given by an external program. At present, the external program can be selected from MXSCARNA, LaRA and FOLDALIGN (the local and global options).
We are ready to support other external programs as the source of pairwise structural alignments.
RNA structural alignment is incompatible with gcc 4.8.x. Even if compilation succeeds, the result can be incorrect. If you have this version of gcc only, use pre-compiled package (2013/Jan)
请注意这种策略对每条序列大小和条数限制。
四. 其他方法
1. E-INS-i 策略
(1)对后序列的排列
(2)说明
其中“X”表示可对齐的残基,“o”表示不可对齐的残基,“-”表示缺口。 不成对的残基在成对比对阶段保持不对齐。 因此,E-INS-i策略适用于解决诸如RNA聚合酶之类的困难问题,嵌入长的不可对齐区域中的几个保守区域。 由于E-INS-i具有三种方法的最小假设,如果要比对的序列的性质不明确,则建议使用此方法。 注意,E-INS-i策略假定的保守区域是有所有序列确定的。
E-INS-i可以比对来自密切相关物种的基因的多个cDNA和多个基因组序列。 但是,当序列很长时,它会占用大量内存空间。
附:where ‘X’s indicate alignable residues, ‘o’s indicate unalignable residues and ‘-‘s indicate gaps. Unalignable residues are left unaligned at the pairwise alignment stage, because of the use of the generalized affine gap cost. Therefore E-INS-i is applicable to a difficult problem such as RNA polymerase, which has several conserved motifs embedded in long unalignable regions. As E-INS-i has the minimum assumption of the three methods, this is recommended if the nature of sequences to be aligned is not clear. Note that E-INS-i assumes that the arrangement of the conserved motifs is shared by all sequences.
2. L-INS-i 策略
(1)比对后序列排列
其中“X”表示可对齐的残基,“o”表示不可对齐的残基,“-”表示缺口。
(2)说明
L-INS-i策略可以比对包含在一个可比对的结构域侧翼的一组序列。 通过Smith-Waterman算法在成对比对中忽略侧翼序列。 注意,假设输入序列仅具有一个可对齐域。 在基准测试中,BAliBASE的ref4对应于此。 BAliBASE的其他类别也适用这样的类似情况,因为它们具有侧翼序列。 对于SABmark和HOMSTRAD的一部分,L-INS-i也显示出比G-INS-i更高的准确度值。
注意:L-INS-i只适合单个保守区域的寻找,如果你提交的序列里,每条序列含有多个保守区域(比如全基因组序列),不适合用这种方法,提交后可能会报错。全基因组序列多序列比较,如果序列不是很多又想要精确点,推荐采用E-INS-i 策略。
附:L-INS-i can align a set of sequences containing sequences flanking around one alignable domain. Flanking sequences are ignored in the pairwise alignment by the Smith-Waterman algorithm. Note that the input sequences are assumed to have only one alignable domain. In benchmark tests, the ref4 of BAliBASE corresponds to this. The other categories of BAliBASE also correspond to similar situations, because they have flanking sequences. L-INS-i also shows higher accuracy values for a part of SABmark and HOMSTRAD than G-INS-i, but we have not identified the reason for this.
以上是MAFFT 7.0的多序列比对的方法介绍,个人认为没有对所有东西都是最好的方法,只有最合适的,每种方法对提交的序列有条数或者长度等等的限制。
说明:转载请注明出处。
如文中有错误之处,欢迎大家及时指正,一起交流学习。