Fasta Tools - Fasta Extract (Recommended) - 序列提取/截取 - 《TBtools Cookbook - TBtools 帮助手册教程》

TBtools 中有数个序列提取功能，其中最为推荐的即这一功能。

从界面上来看，分为 6 大块，其中绝大多数是可选项（即可以不做调整）。

Fasta 序列文件输入文本框，用户可以直接拖拽硬盘中的 Fasta 文件并放置到文本框中，路径会自动获取；也可以点击跟随文本框的摁钮“…”，在弹出文件选择框中选取对应文件即可
Initialize 摁钮，在设置 Fasta 序列文件后，可以看到 Start 摁钮仍然不可点击。需要用户点击 Initialize 摁钮，创建 Fasta 序列索引文件（如前期已有，则会软件会自动复用，节省计算时间）
输出文件设置文本框，用户同样可以拖拽放置文件或者文件夹，程序会自动获取输出文件夹，用户需要补全一个输出文件名；当然也可以直接点击跟随文本框的摁钮，在弹出的问价选择框中设置对应输出文件即可
待提取序列信息设置框，参考界面说明，接受三种类型的提取模式：

基于 ID 的完整序列记录提取，如输入 Unigene_1 … 等完整序列 ID，每行一个，即可提取完整序列记录
基于序列坐标信息，进行序列区间截取，如提取染色体 Chr1 上第 10000 个碱基到 20000 个碱基的一段序列，那么输入如下。如果需要提取反向互补序列，使起始坐标大于终止坐标即可。
```
# 注意，制表符[\t]分隔，而非空白[Space]分隔
Chr1    10000    20000
# 提取反向互补序列，则翻转碱基坐标
Chr1    20000    10000
```
提取坐标信息的功能，重命名区间，如我们需要提取 Peak 或者 Promoter 序列信息，并指定输出时序列名字
```
peak_1    Chr1    10000    10200
promoter_ATG8    Chr2    20300    22300
```

Just Show in Dialog，即提取结果不输出到文件，直接弹出文本对话框，显示提取结果，这一选项对于少量序列提取有较大便利
Fasta Header Pattern Match，对于一些 Fasta 序列文件，其 ID 不能可能会有注释信息，如“>Unigene_1 MYB101 protein，transcription factor”。我们可以使用“MYB”作为输入 ID，从而提取所有 MYB 序列
Whole Word Match，主要解决输入“MYB10”可同时匹配“MYB10”、“MYB101”、“MYB102”等情况，勾选这一选项，即可只匹配“MYB10”
Case Insensitive，很多时候，注释文件甚至是 ID 会存在大小不同，尤其是“myb”需要匹配“MYB”和“myb”时，那么勾选这一参数
Use Tab(\t) as Column Seperator，默认情况下，为了支持部分用户的输入习惯，TBtools 同时支持制表符和空白符，但有时候，用户或许希望重命名输出序列的 ID 含空白符，如“Myb 101 Promoter Chr10 100000 102000”，那么需要勾选这一参数。

这一功能唯一小缺点是会自动建立Fasta文件索引，需要占用一点硬盘空间。