要比较氨基酸或核酸的相似性,则需要借助替换记分矩阵。
008 替换记分矩阵 - 图1

替换记分矩阵一般分为1)DNA 替换记分矩阵;2)蛋白质替换记分矩阵。

DNA 替换记分矩阵

等价矩阵

unitary matrix,最简单的记分矩阵。其中,相同核苷酸的匹配得分为1,不同为0。由于不含有碱基理化性质和不区别对待的替换,较少使用
008 替换记分矩阵 - 图2

转换-颠换矩阵

transition-transversion matrix,核酸的碱基按照环结构划分两类:嘌呤(腺嘌呤A、鸟嘌呤G),有两个环;与嘧啶(胞嘧啶C、胸腺嘧啶T),只有一个环。如果环数发生变化,则称为颠换(嘌呤<->嘧啶),得-5分;如果环数不变,(C<->T,A<->G),称为转换,得-1分。而一般在进化过程中,转换发生的频率比颠换高。而相同碱基,得1分。
008 替换记分矩阵 - 图3

BLAST矩阵

最早应用于BLAST 软件,得名。

经过大量比对后总结出的矩阵:相同核酸为+5,不同为-4。这个矩阵被广泛使用。
008 替换记分矩阵 - 图4

蛋白质替换记分矩阵

等价矩阵

同DNA 等价矩阵。一般也不选用。

PAM矩阵(Dayhoff突变数据矩阵)

PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界容易接受这种替换,那么这对氨基酸替换得分就高。

PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1 矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)

PAM-1 自乘n次,可以得到PAM-n,即发生了多次突变。

008 替换记分矩阵 - 图5

BLOSUM矩阵(blocks substitution matrix)

BLOSUM 矩阵都是通过对大量符合特定要求的序列计算而来。
008 替换记分矩阵 - 图6

氨基酸替换记分矩阵选择

一般根据以下内容
008 替换记分矩阵 - 图7
但也并不是所有的PAM 数据库都有,比如PAM-246就没有现成的,只有PAM-250。

PAM后面的数体现的是差异度,但不是直接等于差异度。
BLOSUM后面的数体现的是相似度,并且直接等于相似度。

008 替换记分矩阵 - 图8

ps: 要是听不懂替换记分矩阵,用BLOSUM-62就完事了。

其他两个蛋白质替换记分矩阵

遗传密码矩阵

genetic code matrix, GCM
008 替换记分矩阵 - 图9

疏水矩阵

根据氨基酸残基替换前后疏水性的变化而得到的得分矩阵。若一次氨基酸替换疏水特性不发生明显变化,则这种替换得分高,否则得分低。

该矩阵物理意义明确,有一定意义,适用于偏重蛋白质功能方面的序列比对。

008 替换记分矩阵 - 图10

例子

008 替换记分矩阵 - 图11

  • 再回到先前氨基酸序列相似度的问题。

可以通过BLOSUM-62 记分矩阵求解
008 替换记分矩阵 - 图12

  • 其中可以看到,有1个相似(正值),一个不相似。

因此相似度为(1+2)/ 4 = 75%

但新的问题又来了,知道了如何比较两个长度相同的序列,那么如何比较不同长度的序列,并求出它们的一致度与相似度呢?