TBtools 实用教程 - 稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息 - 《TBtools Cookbook - TBtools 帮助手册教程》

写在前面
看看结果文件先
写在最后

写在前面

近日在鼓捣课题的过程中，遇到了一些数据整理需求。需要快速统计物种的序列特征情况，比如基因，转录本，外显子，内含子，CDS，UTR等。但我们其实都清楚，很多物种的基因结构注释信息比较粗糙，所以前面我写了一个功能GXF Fix，详细见《GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3》。说实话，我觉得这个功能还是比较有用的。
既然Fix有了，那么就可以搞“Stat”，于是今天主要介绍GXF Stat。

看看结果文件先

Emmm，这个功能说来也简单，就是做一个信息整理，结果文件如下。
看个拟南芥的，我们知道，拟南芥的注释很全面，完全不需要Fix，统计结果如下。
稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息 - 图1
看个香蕉的统计结果，就相对简单，因为不存在 TE 的注释，也没有直接的假基因的特征标识。

整体上，我们可以看到，GXF Stat的统计结果，包括：

染色体数目
基因数目
转录本数目
基因ID
染色体ID
基因在染色体上的坐标跨度
每个基因的转录本个数
每个转录本的ID
每个转录本在染色体上的坐标跨度
每个转录本的外显子数目
每个外显子在染色体上的坐标跨度
每个转录本的内含子个数
每个内含子在染色体上的坐标跨度
每个转录本的CDS 特征个数
每个转录本的CDS 特征在染色体上的坐标跨度
每个转录本的UTR 特征个数
每个UTR 特征在染色体上的坐标跨度

写在最后

多少还是有点失落。尽管我知道现在公众号订阅的人数是 3w+。过去几天分别推了一些推文，其中有一些是不少人会点开看的，也有一些阅读量很低。往往，阅读量很低的，反而是我个人更为喜欢的推文。
想来想去，这应该就是推文的局限。
每个人都很忙，要么就是没时间看推文，要么就是只会看标题新奇的推文。或许，这就是不少流量号存在的根本。优质的内容是被需要的，但真正能受到广泛关注的，还是新奇程度。
一个好的推文标题，应该符合推文内容，
而一个获取流量的推文，需要符合大众的猎奇心理。