目前,不少人物种的基因组已经被测定,常常我们可以直接获得物种的基因组序列以及基因结构注释信息。基于这两个文件,我们完全可以提取:

    • 转录本序列
    • CDS序列
    • 启动子序列

    功能界面如下
    image.png

    1. 设置物种的基因结构注释信息,GFF3或GTF格式
    2. 点击“Initialize”摁钮,即可看到 3. 和 4. 出现可选项
    3. 选择目标注释特征,如 CDS/Exon/UTR 等
    4. 选择注释特征分组标签,如 Parent/transcript/protein 等;注意到,在GFF3或GTF文件中,注释特征是按照不间断跨度,单行记录,即一个转录本有多个Exon,每个Exon各在一行,类似的 CDS 或其他也是,所以需要使用分组标签,串联一个转录本的所有Exon,从而得到完整序列
    5. 设置物种的基因组序列信息
    6. 设置输出文件路径
    7. 可选参数,用于定制提取的具体内容或过滤参数:
    • Max Feature Counts:即分组中最多包含区间数目,如提取的是 exon,选择分组标签为 Parent,设置这一参数为 1 ,则仅提取单外显子的转录本
    • Min Feature Counts:即分组中最少包含区间数目,取的是 exon,选择分组标签为 Parent,设置这一参数为 2 ,则仅提取的转录本至少包含一个内含子
    • Upstream Bases:提取目标注释特征上游给定碱基数目,如提取的目标注释特征是 CDS,设置值为 2000,则提取翻译起始密码子上游2000bp(即常见分析中的启动子序列)
    • Donwstrean Bases:提取目标注释特征下游给定碱基数目
    • Retain Attributes in Header:将提取的序列相关信息附加在输出的 Fasta ID 信息中
    • Retain Only Upstream or Downstream Bases:只保留目标注释特征的上游或下游部分(而不保留目标序列特征);如启动子区域序列提取时,并不需要保留 CDS 区域的序列,而只需要其翻译起始密码子上游的序列部分
    1. 点击开始即可(如果这个摁钮为灰色,那么说明用户还没有点击 Initialize)

    早前,相关功能亦有实例教程,可见
    TBtools | 地球最友好的 GFF3/GTF 序列提取工具