参考

Pfam数据库：

https://pfam.xfam.org/ (已失效)

https://www.ebi.ac.uk/interpro/entry/pfam/

https://www.ebi.ac.uk/interpro/download/Pfam/

一文教你解决新版pfam网站的使用和hmm文件乱码问题！

CDD数据库

SMART数据库

HMMER

http://hmmer.org/

http://eddylab.org/software/hmmer3/

HMMER：序列比对，我比BLAST更准确

基础工具-HMMER用法

1. 介绍

高质量结构域数据库

HMMER

HMMER是基于隐马尔可夫模型，用于生物序列分析工作的一个非常强大的软件包，它的一般用途是识别同源蛋白或核苷酸序列和进行序列比对。

常用程序：

hmmbuild: 使用多重比对序列构建HMM模型

--amino: 蛋白质比对序列

--dna: DNA比对序列

--rna: RNA比对序列

hmmsearch: 寻找相似序列

-o: 直接输出结果到文件，不是标准输出

--tblout: tblout格式输出

--domtblout: domtblout格式输出

--pfamtblout: pfamtblout格式输出

hmmalign
phmmer
hmmscan

2. 下载hmm文件

结构域预测 - 图1

PF00046（https://www.ebi.ac.uk/interpro/entry/pfam/PF00046/）

结构域预测 - 图2

下载得到：PF00046.hmm.gz

3. hmmer鉴定

gunzip PF00046.hmm.gz
hmmsearch PF00046.hmm pep.fa --cut_tc --domtblout PF00046.domtblout -o PF00046.hmmout
# --cut_tc: 输出结果阈值设置
# 基于E值进一步进行过滤
awk '{if($7 < 1e-5 && $1 !~ /^#/) print $0}' PF00046.domtblout > PF00046.domtblout.filter
# 提取预测的MAPK基因ID列表
awk '{print $1}' PF00046.domtblout.filter | sort -u > Ft.MAPK.domtblout.filter.id