会议纪要

1.通过我们的预测RT和Ion intensity,我们识别相较于pDeep和DeepRT的组合,增加了10%-15%的肽段。
2.但是进一步,我们需要验证我们的多检测出的肽段是否正确。
3.初步的想法是,通过建立对于肽段 detectability的预测,把库中detectability 低的肽段去掉,从而将库的大小压缩。

ToDo

1.需要预测肽段的detectability,我们的输入是肽段(与预测RT时的输入一致),训练数据集中label为{0,1}。
2.label中{0,1}为不能被机器探测到与能被机器探测到。其中1为已知能被机器探测到的肽段,大概为20w条,0为存在于人的基因组中的肽段,但是由于 1)组织样本中没有表达肽段所在的蛋白质,所以进入质谱仪时不存在这条肽段,2)该肽段在进入质谱仪的样品中,但是机器没有探测到。目前label为1的数据量为20w条肽段,label为0的肽段为300w条肽段。