官方下载和说明

http://www.usadellab.org/cms/index.php?page=trimmomatic

使用方法

在linux上下载 binary 版解压,里边有 trimmomatic-0.39.jar java可执行文件,修改权限 chmod 777 trimmomatic-0.39.jar

  1. path=/home/zdyx12
  2. trimmomatic=/home/zdyx12/program/Trimmomatic-0.39/trimmomatic-0.39.jar
  3. adapter=/home/zdyx12/program/Trimmomatic-0.39/adapters/TruSeq3-PE.fa
  4. R1=${path}/raw/R1.fastq.gz
  5. R2=${path}/raw/R2.fastq.gz
  6. R1p=${path}/paired1.fq
  7. R1unp=${path}/unpaired1.fq
  8. R2p=${path}/paired2.fq
  9. R2unp=${path}/unpaired2.fq
  10. java -jar $trimmomatic PE -threads 32 -phred33 $R1 $R2 $R1p $R1unp $R2p $R2unp ILLUMINACLIP:$adapter:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50

ILLUMINACLIP:$adapter:2:30:10:8:true : 从左向右分别表示接头文件路径,第一步 seed 搜索允许2个碱基错配,palindrome 比对分值阈值 30,simple clip 比对分值阈值 10,palindrome 模式允许切除的最短接头序列为 8bp(默认值,据说可以改为1,更加彻底的去除接头),palindrome 模式去除与 R1 完全反向互补的 R2(默认去除)
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50 :LEADING:3 正向碱基质量小于3的序列都切除,直到大于等于3(因为ILLUMINA平台一般碱基最小质量为2),TRAILING:3 反向(同上),滑动窗口为4保留平均质量大于20的碱基,最后经过剪切后如果长度小于50则丢弃。

fastp 可以作为另一种尝试的选择

https://github.com/OpenGene/fastp
http://wap.sciencenet.cn/blog-3406804-1161192.html?mobile=1
测试了下,同样50G fq.gz 双端测序文件,同样32线程,比trimmomatic慢。但是可以直接生成gz格式的文件,并且双端测序数据不需要输入接头文件,会根据overlap 得到接头。

参考