在进行序列分析时,难免要做一张序列两两比较的同一性(大致和相似性差不多)表,比如下面这样的:
Li Jin-Yan et al. Microbes and Infection. 2020
**
单一核苷酸或者氨基酸序列同一性表比较好办,可以通过Geneious (付费软件)或者BioEdit来完成。但是,对于编码基因,大多数情况下(或有时)我们需要联合核苷酸和氨基酸的同一性来一起展示。
如下面这样:
**Zhou Peng et al. Nature. 2020**
在BioAider出现之前,以前我是通过BioEdit这款软件计算序列同一性。不过它有一个很大的局限,就是上面那种核苷酸+氨基酸同一性矩阵表,它不能一步生成,得先分别计算好核苷酸或者氨基酸同一性表,再手动(不懂编程的)或者通过脚本(懂编程的)进行合并。
新出的生信小软件BioAider可以很好地解决这点。
先附上软件下载地址:https://github.com/ZhijianZhou01/BioAider/releases
目前最新版为1.03**
打开BioAider V1.03后,进入菜单栏,选择Similar Analysis >- Sequence Identity Matrix,如下:
输入序列要求是已经基于密码子方式比对好的
拖拽或者通过按钮导入已经基于密码子方式比对好的序列文件,然后选择“Combination nt and aa”。因为示例数据是冠状病毒,所以我们选择标准密码子表进行翻译,再点击运行按钮即可。
运行很快,输出结果在软件的“Result”文本框(用来预览)和输入文件所在的目录(*.csv表格文件)下。
打开.csv表格文件如下:
**仅仅显示一部分
*/的前面是核苷酸同一性值(%),后面是氨基酸同一性值(%)。
分析结果快速准确,表格稍微整理下可直接用于文章发表。不仅如此,针对编码区基因的核苷酸序列计算同一性,BioAider还提供了压缩gap功能(Condense gap),当然,这是一个可选项。如果勾选了这个选项,BioAider会将对齐序列中每3个连续插入或删除(gap)的碱基视为一个,再计算成对序列同一性,生物学背景的同学可以稍微思考下就能想通这么做的理由。
PS:如果只是生成单一的核苷酸或氨基酸序列同一性矩阵表,输入序列不要求基于密码子的方式对齐,然后选择“Single nt or aa”单选按钮,同样运行即可。