1. stringtie软件谨慎使用-e参数

    总之被这个参数坑惨了。
    -e 限制reads比对的处理,仅估计和输出与用-G选项给出的参考转录本匹配的组装转录本。使用该选项,则会跳过处理与参考转录本不匹配的组装转录本,这将大大的提升了处理速度。如果需要新基因,获得新转录本,请勿使用该参数。

    如果需要新转录本信息和预测可能存在的新基因,在样品的有参转录本拼接这一步,禁用-e参数。

    1. 在利用RNA-seq注释基因组时,有一个问题就是,将不同组织来源的转录组数据和参考基因组比对之后,那下一步是1)先将这三个比对结果进行合并,然后用StringTie进行预测,还是2)用StringTie分别进行预测,然后用StringTie的merge模式进行合并?

    结论如下:

    StringTie 的merge模式能够合并不同的来源的结果,但在合并的同时会根据FPKM,TPM和转录本长度过滤,最终结果可以认为是在所有样本里面都是有所表达的基因,因此最终的数目会少一些。同时由于某些基因表达量低,单个样本里由于read数少无法覆盖基因,因此最终的预测结构还完整。

    因此,需要先将BAM合并后,然后进行预测,如果为了输出结果的可靠性,还可以根据FPKM和TPM做过滤。

    参考文章:StringTie在注释基因组时的注意事项