vep是Ensembl开发的一个比较好用的注释软件,官方提供的安装方法很简单,通过运行一个perl脚本INSTALL.pl就可以了,但是由于网络的问题,我安装的几次都出现了下载问题。一方面是国内从github上下载很慢,连接一断安装就会失败,另一方面也有个别文件地址无法访问。脚本无法从之前失败的地方继续执行,所以一旦失败就是前工尽弃。因此才决定按照INDSTALL.pl脚本手动安装。

INDSTALL.pl中VEP的安装步骤如下:

  1. 安装bioperl
  2. 安装api

第一步安装bioperl

bioperl是一个很大的perl模块,里面包含很多依赖,如果各种依赖都解决了,可以使用cpanm安装:

  1. cpanm BioPerl

我的系统是windows10下的WLS,刚开始尝试用这个方法进行安装,很多包多安装不上,比如HTTP::Daemon一直测试不通过,并且这样一个一个测试也比较慢。
然后尝试用apt进行安装,一下就装好了

  1. sudo apt install bioperl
  2. # 安装了很多依赖包,占用磁盘大概1G左右
  3. # 测试bioperl是否可用
  4. perl -MBio::SeqIO

第二步安装ensembl API

  1. # 从官网下载最新安装包
  2. wget ftp://ftp.ensembl.org/pub/ensembl-api.tar.gz
  3. # 解压
  4. tar xf ensembl-api.tar.gz
  5. # ensembl ensembl-compara ensembl-funcgen ensembl-io ensembl-tools ensembl-variation
  6. # 将解压出来的各目录下的perl模块文件夹添加到PERL5LIB
  7. # 最好将这样的配置写在bashrc里
  8. export PERL5LIB=$PWD/ensembl/modules:$PWD/ensembl-compare/modules:$PWD/ensembl-funcgen/modules:$PWD/ensembl-io/modules:$PWD/ensembl-variation/modules:$PERL5LIB
  9. # 其实完成这步就可以运行vep了,但是要实际分析我们还要cache和plugins
  10. cd ensembl-vep
  11. ./vep
  12. ##----------------------------------#
  13. ## ENSEMBL VARIANT EFFECT PREDICTOR #
  14. ##----------------------------------#
  15. #
  16. #Versions:
  17. # ensembl-vep : 101.0

第三步安装cache

cache的安装在官网上有详细的手动安装说明,按照上面的步骤即可。

  1. cd $HOME/.vep
  2. curl -O ftp://ftp.ensembl.org/pub/release-100/variation/indexed_vep_cache/homo_sapiens_vep_100_GRCh38.tar.gz
  3. tar xzf homo_sapiens_vep_100_GRCh38.tar.gz

第四步安装参考基因组

参考基因组可以让VEP理解HGVS,检查输入数据对应的碱基序列,根据GTF文件构建转录本。官网上,建议使用INSTALL.pl脚本进行安装。由于参考基因组打包好了,大小只有800M多,如果网络没有问题也可以。我这里是使用迅雷进行下载,然后将文件拷贝到cache下的特定目录。

  1. cp Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz $VEP_CACHE/homo_sapiens/100_GRCh38/
  2. gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  3. bgzip Homo_sapiens.GRCh38.dna.primary_assembly.fa

安装插件

安装插件只需要下载插件包,在运行VEP的时候指定插件目录即可,非常简单就不多说了。

测试使用

  1. ./vep -i examples/homo_sapiens_GRCh38.vcf \
  2. --cache --offline --format vcf \
  3. -o examples/testout.vcf \
  4. --dir_cache /mnt/e/BIODB/vep_cache \
  5. --dir_plugins /mnt/f/Ubuntu/.local/src/VEP_plugins-release-100 \
  6. --vcf --plugin Downstream --symbol