参考

Pfam数据库:

https://pfam.xfam.org/ (已失效)

https://www.ebi.ac.uk/interpro/entry/pfam/

https://www.ebi.ac.uk/interpro/download/Pfam/

一文教你解决新版pfam网站的使用和hmm文件乱码问题!

CDD数据库

SMART数据库

HMMER

http://hmmer.org/

http://eddylab.org/software/hmmer3/

HMMER:序列比对,我比BLAST更准确

基础工具-HMMER用法

1. 介绍

高质量结构域数据库

HMMER

HMMER是基于隐马尔可夫模型,用于生物序列分析工作的一个非常强大的软件包,它的一般用途是识别同源蛋白或核苷酸序列和进行序列比对。

常用程序:

  • hmmbuild: 使用多重比对序列构建HMM模型

--amino: 蛋白质比对序列

--dna: DNA比对序列

--rna: RNA比对序列

  • hmmsearch: 寻找相似序列

-o: 直接输出结果到文件,不是标准输出

--tblout: tblout格式输出

--domtblout: domtblout格式输出

--pfamtblout: pfamtblout格式输出

  • hmmalign
  • phmmer
  • hmmscan

2. 下载hmm文件

结构域预测 - 图1

PF00046(https://www.ebi.ac.uk/interpro/entry/pfam/PF00046/

结构域预测 - 图2

下载得到:PF00046.hmm.gz

3. hmmer鉴定

  1. gunzip PF00046.hmm.gz
  2. hmmsearch PF00046.hmm pep.fa --cut_tc --domtblout PF00046.domtblout -o PF00046.hmmout
  3. # --cut_tc: 输出结果阈值设置
  4. # 基于E值进一步进行过滤
  5. awk '{if($7 < 1e-5 && $1 !~ /^#/) print $0}' PF00046.domtblout > PF00046.domtblout.filter
  6. # 提取预测的MAPK基因ID列表
  7. awk '{print $1}' PF00046.domtblout.filter | sort -u > Ft.MAPK.domtblout.filter.id