写在前面
下游数据分析的时候,大体会遇到以下两个场景:
- 手工查看基因组任意位置的基因,具体的注释信息,以及其前后基因的功能注释信息
- 手上有某个序列或者某几个序列,想要快速知道这些序列对应的蛋白到底都有什么功能
一般而言,我们会使用BLAST软件,比对到一些数据库,然后整理整理。不过这个过程还是相对较慢。快,估计是所有人都在追求的。要加速这个过程,其实只需要做两个事情:
- 数据库本地化,因为网页总归是慢一些的,尤其是网站主机在国外,比如NCBI
- 使用比BLAST更快的软件,如ghostz或者diamond等
对于TBtools用户来说,则可以直接使用今天介绍的插件。
Quick Protein Anno
安装请参考之前的推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。插件打开界面如下:
由上述界面可以看出,使用起来极其简单:
0. 如果没有下载Swissprot数据库,那就点击DB Download
,会自动跳转下载链接,下载下来是.gz文件,注意先解压
- 拖拽放置Swissprot序列库
- 设置待查询的序列
- 设置输出文件路径或者点击
Text Output
- 点击
Start
等待即可,总的来说,我觉得还是很快的。最多几分钟?不过还是要看大伙输入的数据集合大小。
测试香蕉蛋白全集快速注释
只开了两个线程,从20:14
开始,跑到20:17
。
只用了三分钟!
看了下,效果还是很不错的。
测试几个序列
随意截取了几个序列,试了下,估计要等个10+s。在输入序列太少的情况下,果然速度不如BLAST,不过也不影响嘛。。。
写在后面
昨天发了一个通告,主要是告知大伙一些大半年前就已经开始的状态。一方面我不希望 TBtools 被用于商业活动却反噬我自己;另一方面我也不想自己再折腾相关事务。最好的办法就是,直接授权出去,让公司去跟一些行为不妥的公司或者团队折腾。而我专心做我自己想做的事情就行。当然了,有得有失,只在我个人与公司。对于用户来说,并无区别。至少过去大半年了,也没见用户因此困扰。TBtools也没有限制核心功能的时候使用,甚至还变得更完善和稳健。
还是小时候说的“不革自己的命,就等着被别人革”。