fastq-dump是SRAtoolkit中使用频率很高的命令,用于从SRA文件中拆解提取fastq文件。具体用法如下:

    1. Usage:
    2. fastq-dump [options] <path> [<path>...]
    3. fastq-dump [options] <accession>
    4. Use option --help for more information
    5. fastq-dump : 2.9.6

    一般使用fastq-dump的方式为

    1. fastq-dump -s /path/to/xxx.sra

    但是默认的参数往往结果并不理想,在此它会默认把结果全部保存在一个文件里,并且得到的结果并不是压缩文件,会对储存造成一定的困扰。因此在使用fastq-dump时,需要注意参数的设置。主要有以下两点:

    1. read拆分

    默认情况下fastq-dump不对reads进行拆分, 对于很早之前的单端测序没有出现问题.但是对于双端测序而言,就会把原本的两条reads合并成一个,后续分析必然会出错。

    常用的参数有三类:

    • --split-spot: 将双端测序分为两份,但是都放在同一个文件中
    • --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
    • --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

    在不确定是单末端还是双末端测序时,建议一律使用--split-3

    1. 输出方式
      fastq-dump默认输出的是未压缩文件,所以可以对文件进行压缩设置,减少储存空间:
      • --gzip, --bzip2: 压缩方式
      • -Z | --stdout : 输出到标准输出
      • -O|--outdir : 输出到指定文件夹

    最后,通用的命令行可以写作:

    1. fastq-dump -s /path/to/xxx.sra --split-3 --gzip -O /path/to/result