搜库软件介绍 - 《质谱数据处理》

质谱数据以及格式转换介绍
数据依赖质谱搜库的基本原理
常用的搜库软件和使用方法

质谱，或者更具体的说“液相色谱串联质谱（LCMS）”，是蛋白质组学研究中的核心工具，鉴定速度快，动量高，可以高效准确的产生大量数据。于是对数据的产生和分析就需要各类软件和算法才能保证结果的丰富以及可信。这篇想介绍一些基本概念和常用的鉴定搜库方法。

质谱数据以及格式转换介绍

市场占有率最高的质谱仪应该是Thermo公司的如QE/QE+/Lumos/HF等，这些仪器打完会产生raw格式数据。其它公司的仪器会产生不同格式的数据。这些数据对后续的分析并不方便，需要加以转换。
常用的质谱数据格式转换工具包括：rawconvert、msconvert、ReAdW等，他们都可以对多种格式进行转换，但又有一些细节上的不同所以有各自的应用场景，后面会一一介绍。
对于二级谱鉴定，dta/ms2/mgf是常见的格式，文本文件，对自己编写脚本也非常方便。而mzXML以及更近一些mzML，虽然比较占空间，但作为通用的格式，被越来越多的新软件所采用，一般涉及一级谱的定量的软件都会用到。

数据依赖质谱搜库的基本原理

一级谱里记录的是色谱中某一时刻流出的各个组分在质谱仪经过电离后在磁场中测量出的核质比m/z以及离子强度。数据依赖的质谱（DDA）会从其中挑比较显著的20个进行碎裂并打二级谱来帮助鉴定。如果是一条多肽，在碎裂时可以在任意一个肽键上随机断裂从而裂成总质量相同的两部分，每个碎片的核质比（电荷主要为+1）以及强度都会在二级谱中有所体现，于是这些质量就和多肽的序列具有一一对应的关系（理论上）。然而由于噪音存在，人们一般难以直接由谱图得到原始序列。目前最经典的方法就是先利用基因组数据把所有可能肽段所对应的理想二级谱算出并做好索引，对于每一张实验谱找到与之匹配最好的理论谱。同时在理论谱中还要同比例混入decoys，借此控制结果的假阳性率（FDR）。

常用的搜库软件和使用方法

我们这里只介绍学术免费的几款软件，商业化的我没有用过，不是不喜欢，只是因为穷。

Maxquant

这款Cox组开发的软件应该算是最常用的质谱数据分析工具，融搜库定量为一炉，label free定量也是优势之一。他们也提供了组学数据后处理绘图工具Perseus，可以说是行业金标准。

pFind

国产优秀的质谱分析套件，在我们自己的测试结果显示无论速度和鉴定比例都比Maxquant具有明显优势，对不同定量场景灵活支持令人印象深刻，但对定量结果的展示有所欠缺。

MSFragger

近几年异军突起的搜库软件，速度奇快，尤其是在开方式搜索场景优势明显。最近也提供了GUI界面FragPipe和定量工具Ionquant，值得尝试。

ProLuCID

John Yates组开发的较老的搜库软件，必须在集群上使用，速度已经落伍，但因为结果比较可靠所以我们也一直在用。但已经计划把它从标准流程中用MSFragger替换，这样只需要一台稍好的台式机就可以进行全套组学数据分析。