根据蛋白质搜库检索结果得到原始数据,原始数据通过一定的标准筛选出可信蛋白及差异蛋白,基于差异蛋白进行后续分析。

原始数据格式

蛋白质组学的原始数据格式繁多,Thermo的RAW格式的数量在90%以上,其余有少数Bruker公司的.d格式,AB公司的wiff格式。

格式转换

查看软件

ProteoWizard

一款通用的质谱格式查看和转化工具,几乎支持市面上所有的质谱数据格式。包括两个主程序和若干命令行程序,只能在Windows下运行。

  • SeeMS用于查看质谱的峰图
  • MSConver用于做峰图的提取和格式的转换

Xcalibur

Thermo官方的质谱数据查看及仪器控制软件。

搜库

数据库

绝大多数蛋白质组学得软件得搜库依赖于蛋白质序列。

  • Uniprot

Uniprot是最常用得蛋白质序列数据库。

  • NCBI

对于极少数冷门物种,Uniprot可能没有收集该物种得蛋白质序列,可以从NCBI等数据库下载。

  • 自己测序的物种

对于自己测序的物种,可以自己对物种进行组装和注释,将其注释出来得蛋白质序列作为后续分析的蛋白质序列数据。

搜库软件

MaxQuant (MQ)

德国马普所开发

有Windows版本,Linux下可以用Mono或者docker运行

Mascot

英国matrix-Science开发,商业搜库软件

只能将数据上传至服务器运行

Proteome Discoverer (PD)

Thermo开发

自带Sequest算法,可以安装Mascot,MSAmanda等搜库插件。

数据库:

PRIDE: https://www.ebi.ac.uk/pride/

http://www.proteomexchange.org/

https://www.iprox.cn/

针对单一物种的蛋白质组学,不建议将该物种及其近缘物种的蛋白序列混合作为搜库的序列。

针对多物种的蛋白质组学,需要将不同物种蛋白质序列合并后进行后续分析。

蛋白质翻译后修饰是蛋白质组学研究的一大热门。蛋白质翻译后修饰按照来源,可以分成两大类:

一类是生物体内本身就存在的翻译后修饰,如乙酰化和磷酸化;

另一类是样品前处理过程中可能引入的修饰,如环氧烷基化和一些氨基酸的氧化。

蛋白质翻译后修饰的数据库有很多,最权威的是Unimod数据库。

许多软件支持手动或者自动从UniMod中获得最新的翻译后修饰数据。