根据蛋白质搜库检索结果得到原始数据,原始数据通过一定的标准筛选出可信蛋白及差异蛋白,基于差异蛋白进行后续分析。
原始数据格式
蛋白质组学的原始数据格式繁多,Thermo的RAW格式的数量在90%以上,其余有少数Bruker公司的.d格式,AB公司的wiff格式。
格式转换
查看软件
ProteoWizard
一款通用的质谱格式查看和转化工具,几乎支持市面上所有的质谱数据格式。包括两个主程序和若干命令行程序,只能在Windows下运行。
- SeeMS用于查看质谱的峰图
- MSConver用于做峰图的提取和格式的转换
Xcalibur
Thermo官方的质谱数据查看及仪器控制软件。
搜库
数据库
绝大多数蛋白质组学得软件得搜库依赖于蛋白质序列。
- Uniprot
Uniprot是最常用得蛋白质序列数据库。
- NCBI
对于极少数冷门物种,Uniprot可能没有收集该物种得蛋白质序列,可以从NCBI等数据库下载。
- 自己测序的物种
对于自己测序的物种,可以自己对物种进行组装和注释,将其注释出来得蛋白质序列作为后续分析的蛋白质序列数据。
搜库软件
MaxQuant (MQ)
德国马普所开发
有Windows版本,Linux下可以用Mono或者docker运行
Mascot
英国matrix-Science开发,商业搜库软件
只能将数据上传至服务器运行
Proteome Discoverer (PD)
Thermo开发
自带Sequest算法,可以安装Mascot,MSAmanda等搜库插件。
数据库:
PRIDE: https://www.ebi.ac.uk/pride/
http://www.proteomexchange.org/
针对单一物种的蛋白质组学,不建议将该物种及其近缘物种的蛋白序列混合作为搜库的序列。
针对多物种的蛋白质组学,需要将不同物种蛋白质序列合并后进行后续分析。
蛋白质翻译后修饰是蛋白质组学研究的一大热门。蛋白质翻译后修饰按照来源,可以分成两大类:
一类是生物体内本身就存在的翻译后修饰,如乙酰化和磷酸化;
另一类是样品前处理过程中可能引入的修饰,如环氧烷基化和一些氨基酸的氧化。
蛋白质翻译后修饰的数据库有很多,最权威的是Unimod数据库。
许多软件支持手动或者自动从UniMod中获得最新的翻译后修饰数据。