官方下载和说明
http://www.usadellab.org/cms/index.php?page=trimmomatic
使用方法
在linux上下载 binary 版解压,里边有 trimmomatic-0.39.jar java可执行文件,修改权限 chmod 777 trimmomatic-0.39.jar 。
path=/home/zdyx12trimmomatic=/home/zdyx12/program/Trimmomatic-0.39/trimmomatic-0.39.jaradapter=/home/zdyx12/program/Trimmomatic-0.39/adapters/TruSeq3-PE.faR1=${path}/raw/R1.fastq.gzR2=${path}/raw/R2.fastq.gzR1p=${path}/paired1.fqR1unp=${path}/unpaired1.fqR2p=${path}/paired2.fqR2unp=${path}/unpaired2.fqjava -jar $trimmomatic PE -threads 32 -phred33 $R1 $R2 $R1p $R1unp $R2p $R2unp ILLUMINACLIP:$adapter:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50
ILLUMINACLIP:$adapter:2:30:10:8:true : 从左向右分别表示接头文件路径,第一步 seed 搜索允许2个碱基错配,palindrome 比对分值阈值 30,simple clip 比对分值阈值 10,palindrome 模式允许切除的最短接头序列为 8bp(默认值,据说可以改为1,更加彻底的去除接头),palindrome 模式去除与 R1 完全反向互补的 R2(默认去除)
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50 :LEADING:3 正向碱基质量小于3的序列都切除,直到大于等于3(因为ILLUMINA平台一般碱基最小质量为2),TRAILING:3 反向(同上),滑动窗口为4保留平均质量大于20的碱基,最后经过剪切后如果长度小于50则丢弃。
fastp 可以作为另一种尝试的选择
https://github.com/OpenGene/fastp
http://wap.sciencenet.cn/blog-3406804-1161192.html?mobile=1
测试了下,同样50G fq.gz 双端测序文件,同样32线程,比trimmomatic慢。但是可以直接生成gz格式的文件,并且双端测序数据不需要输入接头文件,会根据overlap 得到接头。
