Pfam 数据库
http://pfam.xfam.org/
是一个蛋白质结构域家族的集合。
蛋白质一般由一个或多个功能区域组成,这些功能区域通常被称为结构域(domain)。在不同的蛋白中,结构域以不同的组合出现,形成了蛋白质的多样性。
识别出蛋白质的结构域对于了解蛋白质的功能有重要的意义。
如 人Toll 样受体-4
检索序列
summary:获得结构域的功能注释与功能信息。
domain organization:可以看到目前有多少蛋白质拥有搜索结构域,以及结构域与其他结构域的组合搭配关系。
structure:列出所有包含搜索结构域的蛋白质结构,以及他们在序列数据库Uniprot 结构数据库PDB。
CATH 数据库
http://www.cathdb.info/
1)蛋白质种类
2)二级结构构架
3)拓扑结构
4)同源超家族
四种层次,逐层向下分类。(分类是以蛋白结构域为准,因此某个蛋白质可能对应CATH 数据库中的多个分类,因为该蛋白可能包含多个结构域)
搜索
可以直接根据PDB 的代码查询
在分类栏目中,对应了CATH 的各级分类
聚类分析
CATH 还为蛋白质根据其拥有2.70.40.10该分类的结构域,进行了分类。
不同深浅代表不同的相似度。
三个黄点代表搜索蛋白三个组成的结构域,在序列水平上是相同的。
超家族叠加分析
CATH 从同一同源超家族分类里,选择出一定的有代表性的结构域,将它们叠加在一起。
These images have been generated from a superposition of the 20 representative domains within this superfamily. When choosing how to superpose the structures, more emphasis is given to residues that are structurally similar (according to SSAP). This often highlights a highly conserved “core” even in superfamilies with substantial structural diversity.
SCOP2 数据库
http://scop2.mrc-lmb.cam.ac.uk/
以及新版
http://scop.mrc-lmb.cam.ac.uk/scop2/
与CATH类似,但更多考虑蛋白质进化关系。而且主要依赖于人工验证。
分类基于四个层次:
1)类
2)家族
3)超家族(与CATH 不同)
4)折叠