vep是Ensembl开发的一个比较好用的注释软件,官方提供的安装方法很简单,通过运行一个perl脚本INSTALL.pl就可以了,但是由于网络的问题,我安装的几次都出现了下载问题。一方面是国内从github上下载很慢,连接一断安装就会失败,另一方面也有个别文件地址无法访问。脚本无法从之前失败的地方继续执行,所以一旦失败就是前工尽弃。因此才决定按照INDSTALL.pl脚本手动安装。
INDSTALL.pl中VEP的安装步骤如下:
- 安装bioperl
- 安装api
第一步安装bioperl
bioperl是一个很大的perl模块,里面包含很多依赖,如果各种依赖都解决了,可以使用cpanm安装:
cpanm BioPerl
我的系统是windows10下的WLS,刚开始尝试用这个方法进行安装,很多包多安装不上,比如HTTP::Daemon一直测试不通过,并且这样一个一个测试也比较慢。
然后尝试用apt进行安装,一下就装好了
sudo apt install bioperl
# 安装了很多依赖包,占用磁盘大概1G左右
# 测试bioperl是否可用
perl -MBio::SeqIO
第二步安装ensembl API
# 从官网下载最新安装包
wget ftp://ftp.ensembl.org/pub/ensembl-api.tar.gz
# 解压
tar xf ensembl-api.tar.gz
# ensembl ensembl-compara ensembl-funcgen ensembl-io ensembl-tools ensembl-variation
# 将解压出来的各目录下的perl模块文件夹添加到PERL5LIB
# 最好将这样的配置写在bashrc里
export PERL5LIB=$PWD/ensembl/modules:$PWD/ensembl-compare/modules:$PWD/ensembl-funcgen/modules:$PWD/ensembl-io/modules:$PWD/ensembl-variation/modules:$PERL5LIB
# 其实完成这步就可以运行vep了,但是要实际分析我们还要cache和plugins
cd ensembl-vep
./vep
##----------------------------------#
## ENSEMBL VARIANT EFFECT PREDICTOR #
##----------------------------------#
#
#Versions:
# ensembl-vep : 101.0
第三步安装cache
cache的安装在官网上有详细的手动安装说明,按照上面的步骤即可。
cd $HOME/.vep
curl -O ftp://ftp.ensembl.org/pub/release-100/variation/indexed_vep_cache/homo_sapiens_vep_100_GRCh38.tar.gz
tar xzf homo_sapiens_vep_100_GRCh38.tar.gz
第四步安装参考基因组
参考基因组可以让VEP理解HGVS,检查输入数据对应的碱基序列,根据GTF文件构建转录本。官网上,建议使用INSTALL.pl脚本进行安装。由于参考基因组打包好了,大小只有800M多,如果网络没有问题也可以。我这里是使用迅雷进行下载,然后将文件拷贝到cache下的特定目录。
cp Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz $VEP_CACHE/homo_sapiens/100_GRCh38/
gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
bgzip Homo_sapiens.GRCh38.dna.primary_assembly.fa
安装插件
安装插件只需要下载插件包,在运行VEP的时候指定插件目录即可,非常简单就不多说了。
测试使用
./vep -i examples/homo_sapiens_GRCh38.vcf \
--cache --offline --format vcf \
-o examples/testout.vcf \
--dir_cache /mnt/e/BIODB/vep_cache \
--dir_plugins /mnt/f/Ubuntu/.local/src/VEP_plugins-release-100 \
--vcf --plugin Downstream --symbol