写在前面

下游数据分析的时候,大体会遇到以下两个场景:

  1. 手工查看基因组任意位置的基因,具体的注释信息,以及其前后基因的功能注释信息
  2. 手上有某个序列或者某几个序列,想要快速知道这些序列对应的蛋白到底都有什么功能

一般而言,我们会使用BLAST软件,比对到一些数据库,然后整理整理。不过这个过程还是相对较慢。快,估计是所有人都在追求的。要加速这个过程,其实只需要做两个事情:

  1. 数据库本地化,因为网页总归是慢一些的,尤其是网站主机在国外,比如NCBI
  2. 使用比BLAST更快的软件,如ghostz或者diamond等

对于TBtools用户来说,则可以直接使用今天介绍的插件。

Quick Protein Anno

安装请参考之前的推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。插件打开界面如下:
插件 | 蛋白序列集合功能注释快速完成 - Quick Protein Anno - 图1

由上述界面可以看出,使用起来极其简单:
0. 如果没有下载Swissprot数据库,那就点击DB Download,会自动跳转下载链接,下载下来是.gz文件,注意先解压

  1. 拖拽放置Swissprot序列库
  2. 设置待查询的序列
  3. 设置输出文件路径或者点击Text Output
  4. 点击Start

等待即可,总的来说,我觉得还是很快的。最多几分钟?不过还是要看大伙输入的数据集合大小。

测试香蕉蛋白全集快速注释

插件 | 蛋白序列集合功能注释快速完成 - Quick Protein Anno - 图2
只开了两个线程,从20:14开始,跑到20:17
只用了三分钟!
插件 | 蛋白序列集合功能注释快速完成 - Quick Protein Anno - 图3
看了下,效果还是很不错的。

测试几个序列

随意截取了几个序列,试了下,估计要等个10+s。在输入序列太少的情况下,果然速度不如BLAST,不过也不影响嘛。。。
插件 | 蛋白序列集合功能注释快速完成 - Quick Protein Anno - 图4

写在后面

昨天发了一个通告,主要是告知大伙一些大半年前就已经开始的状态。一方面我不希望 TBtools 被用于商业活动却反噬我自己;另一方面我也不想自己再折腾相关事务。最好的办法就是,直接授权出去,让公司去跟一些行为不妥的公司或者团队折腾。而我专心做我自己想做的事情就行。当然了,有得有失,只在我个人与公司。对于用户来说,并无区别。至少过去大半年了,也没见用户因此困扰。TBtools也没有限制核心功能的时候使用,甚至还变得更完善和稳健。
还是小时候说的“不革自己的命,就等着被别人革”