介绍
PASA (Program to Assemble Spliced alignment),是一种真核基因组注释工具,它利用表达的转录本序列的拼接比对自动建模基因结构,并保持基因结构注释与最新可用的实验序列数据一致。PASA还识别和分类转录本比对支持的所有拼接变体。
使用
https://github.com/PASApipeline/PASApipeline/releases
wget -c https://github.com/PASApipeline/PASApipeline/releases/download/pasa-v2.5.3/PASApipeline.v2.5.3.FULL.tar.gz
tar -zxvf PASApipeline.v2.5.3.FULL.tar.gz
功能
- 基于组装拼接比对,构建完整和部分的基因结构模型。
- 基于转录本比对的基因结构自动合并到已有的基因结构注释中,从而保持注释与实验证据一致。注释更新包括:
注释非翻译区域(UTRs)
外显子的添加,删除,边界调整
添加可选剪接变体的模型
合并基因
分裂基因
建模新基因
- 将多聚腺苷酸化位点映射到基因组
- 识别反义转录
- 识别和分类所有发现的剪接变异
- 基于转录本比对,报告一组可能的部分和/或全长蛋白质编码基因,用于训练 ab initio 基因预测工具。
作用
作为更大的真核生物基因注释 pipeline 的一个组成部分。
全面的基因组注释不仅依赖转录本序列证据。并不是所有的基因都在评估条件下表达,有些基因表达水平较低,这使得它们的发现和正确的注释变得复杂。全面的基因组注释还需要其他形式的证据,包括从头开始的基因预测物和先前在其他测序基因组中发现的蛋白质的同源性。在Broad研究所实现的一个完整的注释管道包括以下步骤:
- ab initio 基因注释工具:
GeneMarkHMM、FGENESH、Augustus、SNAP、GlimmerHMM
- 利用 GeneWise 软件和 uniref90 非冗余蛋白质数据库进行蛋白质同源性检测和内含子解析
- 已知的 ESTs、全长 cDNA 和 Trinity RNA-Seq 比对到基因组
- 基于步骤 3. 中的转录本比对结果进行 PASA 比对拼装
- 使用 EVidenceModeler (EVM) 对上述基因结构注释加权综合
- 使用 PASA 更新 EVM 结果,为可变剪接 isoforms 添加UTR注释和模型(4,5)
- 使用 Apollo 对基因组注释进行有限的人工改进
补充
transdecoder,真核生物基因组注释工具,将cDNA 序列剪切性比对到基因组,从而确定基因的结构模型。
利用这些cDNA序列的比对结果,PASA也能鉴定可变剪切。
- 将cDNA序列比对到基因组
- 利用RNA-Seq数据构建综合转录组数据库
- 从结果中提取ORF并进行基因预测
PASA集成了transdecoder - 对基因预测结果进行更新
能根据转录本序列与基因组的比对结果,对旧的基因结构注释文件进行更新。
比如:修正外显子的边界、增加非编码、增加可变剪接等。