TBtools 中有数个序列提取功能,其中最为推荐的即这一功能。
    image.png
    从界面上来看,分为 6 大块,其中绝大多数是可选项(即可以不做调整)。

    1. Fasta 序列文件输入文本框,用户可以直接拖拽硬盘中的 Fasta 文件并放置到文本框中,路径会自动获取;也可以点击跟随文本框的摁钮“…”,在弹出文件选择框中选取对应文件即可
    2. Initialize 摁钮,在设置 Fasta 序列文件后,可以看到 Start 摁钮仍然不可点击。需要用户点击 Initialize 摁钮,创建 Fasta 序列索引文件(如前期已有,则会软件会自动复用,节省计算时间)
    3. 输出文件设置文本框,用户同样可以拖拽放置文件或者文件夹,程序会自动获取输出文件夹,用户需要补全一个输出文件名;当然也可以直接点击跟随文本框的摁钮,在弹出的问价选择框中设置对应输出文件即可
    4. 待提取序列信息设置框,参考界面说明,接受三种类型的提取模式:
    • 基于 ID 的完整序列记录提取,如输入 Unigene_1 … 等完整序列 ID,每行一个,即可提取完整序列记录
    • 基于 序列坐标信息,进行序列区间截取,如提取染色体 Chr1 上第 10000 个碱基到 20000 个碱基的一段序列,那么输入如下。如果需要提取反向互补序列,使起始坐标大于终止坐标即可。

      1. # 注意,制表符[\t]分隔,而非空白[Space]分隔
      2. Chr1 10000 20000
      3. # 提取反向互补序列,则翻转碱基坐标
      4. Chr1 20000 10000
    • 提取坐标信息的功能,重命名区间,如我们需要提取 Peak 或者 Promoter 序列信息,并指定输出时序列名字

      1. peak_1 Chr1 10000 10200
      2. promoter_ATG8 Chr2 20300 22300
    1. 系列可选参数

    image.png

    • Just Show in Dialog,即提取结果不输出到文件,直接弹出文本对话框,显示提取结果,这一选项对于少量序列提取有较大便利
    • Fasta Header Pattern Match,对于一些 Fasta 序列文件,其 ID 不能可能会有注释信息,如“>Unigene_1 MYB101 protein,transcription factor”。我们可以使用“MYB”作为输入 ID,从而提取所有 MYB 序列
    • Whole Word Match,主要解决输入“MYB10”可同时匹配“MYB10”、“MYB101”、“MYB102”等情况,勾选这一选项,即可只匹配“MYB10”
    • Case Insensitive,很多时候,注释文件甚至是 ID 会存在大小不同,尤其是“myb”需要匹配“MYB”和“myb”时,那么勾选这一参数
    • Use Tab(\t) as Column Seperator,默认情况下,为了支持部分用户的输入习惯,TBtools 同时支持制表符和空白符,但有时候,用户或许希望重命名输出序列的 ID 含空白符,如“Myb 101 Promoter Chr10 100000 102000”,那么需要勾选这一参数。
    1. 一切准备就绪,点击 Start 即可。

    这一功能唯一小缺点是 会自动建立Fasta文件索引,需要占用一点硬盘空间