写在前面

近日在鼓捣课题的过程中,遇到了一些数据整理需求。需要快速统计物种的序列特征情况,比如基因,转录本,外显子,内含子,CDS,UTR等。但我们其实都清楚,很多物种的基因结构注释信息比较粗糙,所以前面我写了一个功能GXF Fix,详细见《GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3》。说实话,我觉得这个功能还是比较有用的。
既然Fix有了,那么就可以搞“Stat”,于是今天主要介绍GXF Stat

看看结果文件先

Emmm,这个功能说来也简单,就是做一个信息整理,结果文件如下。
看个拟南芥的,我们知道,拟南芥的注释很全面,完全不需要Fix,统计结果如下。
稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息 - 图1
看个香蕉的统计结果,就相对简单,因为不存在 TE 的注释,也没有直接的假基因的特征标识。
稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息 - 图2

整体上,我们可以看到,GXF Stat的统计结果,包括:

  1. 染色体数目
  2. 基因数目
  3. 转录本数目
  4. 基因ID
  5. 染色体ID
  6. 基因在染色体上的坐标跨度
  7. 每个基因的转录本个数
  8. 每个转录本的ID
  9. 每个转录本在染色体上的坐标跨度
  10. 每个转录本的外显子数目
  11. 每个外显子在染色体上的坐标跨度
  12. 每个转录本的内含子个数
  13. 每个内含子在染色体上的坐标跨度
  14. 每个转录本的CDS 特征个数
  15. 每个转录本的CDS 特征在染色体上的坐标跨度
  16. 每个转录本的UTR 特征个数
  17. 每个UTR 特征在染色体上的坐标跨度

写在最后

多少还是有点失落。尽管我知道现在公众号订阅的人数是 3w+。过去几天分别推了一些推文,其中有一些是不少人会点开看的,也有一些阅读量很低。往往,阅读量很低的,反而是我个人更为喜欢的推文。
想来想去,这应该就是推文的局限。
每个人都很忙,要么就是没时间看推文,要么就是只会看标题新奇的推文。或许,这就是不少流量号存在的根本。优质的内容是被需要的,但真正能受到广泛关注的,还是新奇程度。
一个好的推文标题,应该符合推文内容,
而一个获取流量的推文,需要符合大众的猎奇心理。