参考

从零开始基因组注释(六)| 基于转录组的基因结构注释

三种证据:从头、同源、RNA

1. 从头预测(ab initio)

从头预测方法是根据编码区统计特征和基因信号进行基因结构的预测。编码区特征的统计测验需要基于一定的基因模型。

大量研究表明,HMM 模型用于基因预测表现良好。目前从头预测主流方法均基于 HMM 模型。

不需要利用外部的证据来鉴定基因及判断该基因的外显子-内含子结构,而是利用各种概率模型和已知基因统计特征预测基因模型。

主要问题是:

  1. 很多从头预测软件预测新物种基因时,是利用已有模式物种的基因统计参数文件。即使是非常相近的物种,它们之间的内含子长度、密码子频率、GC含量等重要参数也均会存在一定的差异。为解决该问题,需要通过该物种的特定基因训练数据集获得统计参数。
  2. 足够的训练数据集可以在基因数量层次上保证准确,但内含子-外显子剪接位点的准确率仍然较低。

灵敏性、特异性衡量算法优劣

2. 同源比对

利用近缘已有物种进行同源基因比对获得间接证据

由于同源基因编码的蛋白序列在相近物种间存在较高的保守性,因而这部分序列经常被作为基因预测过程的主要证据,即将相近物种的蛋白序列联配到目标基因组上,获得这些蛋白序列在基因组上的对应位置,从而确定外显子边界。

在这一过程中,选择高质量的物种预测结果作为辅助证据尤为关键,如果引用低质量的预测结果作为辅助证据,会导致预测从一个物种延续到另一物种。

在软件工具选用方面,一般使用剪接位点识别度比较高的联配软件,从而获得较为准确的外显子边界和剪接位点。

3. 转录本

基于目标物种基因表达数据获得表达证据

在各种基因预测的证据中,转录组数据对基因预测的准确性提升有很大帮助。目前利用 RNA-Seq 辅助预测的策略主要分为两种:

  1. 将 RNA-Seq 数据独立拼接成转录本,然后将转录本联配到基因组上来确定基因的位置和结构;
  2. 直接将 RNA-Seq 的读序数据联配到基因组上,再通过联配结果进行组装。

这两种策略哪种更为准确目前看法不一,前者的主要问题在于 RNA-Seq 本身的拼接质量——本身拼接的序列较短从而不能保证获得完整的转录本序列,目前第三代测序技术已可以逐步解决该问题;对于后者,如果基因组中基因间隔很短,有时候会错误地把两个不同的基因预测为一个基因,该策略的优势在于能够较为准确地确定剪接位点和外显子的边界。

利用以上三种策略或工具完成预测后,会获得很多重叠或有出入的基因结构。这时可以通过基因预测整合工具获得一个完整且较准确的预测结果。目前较主流的整合工具为 EVidenceModeler(EVM)和 GLEAN,这类软件可从各种来源的结构预测结果中选取最可能的外显子,然后将他们合并整合成完整的基因结构。

Maker2 是一种将重复序列屏蔽、基因预测、功能预测结果整合等步骤综合一体的软件。

经过上述步骤预测出来的结果,通常还存在一定数量低质量的基因预测结果(假基因、ORF 太短等),需要进行人工筛选。一般会过滤掉编码蛋白长度小于 50 个氨基酸、编码不完整、基因长度过长、基因中间存在大量“N”等情况的基因。