过滤条件
测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性,需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序列质量控制的标准为:
- 去除含接头的reads;
- 过滤去除低质量值数据,确保数据质量;
- 去除含有N(无法确定碱基信息)的比例大于5%的reads;
trim_galore

网址:https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/常用参数
-j/--cores ## 使用线程数-q/--quality ## 切除质量得分低于设置值的序列。默认为0--phred33/--phred64 ## 使用不同质量得分作为phred得分标准。默认为33-a/--adapter ## 输入序列,也可不输入(软件自动匹配)--length ## 长度小于设定值的reads将被丢弃--max_length ## 长度大于设定值的reads将被丢弃--stringency ## 限定最少与adaptor序列重叠的碱基数--paired ## 对于双端测序,其中一个不合格则另一个也会被剔除-o/--output_dir ## 设定输出目录(必须存在,否则报错)--fastqc ## 剪切结束后,对剪切后文件进行fastqc检测--max_n ## 去除含有N大于n的序列
过滤流程
新建文件夹
(rna) vip13t21 14:20:56 ~/project/GSE106901/data$ lsqc rawData(rna) vip13t21 14:21:54 ~/project/GSE106901/data$ mkdir -p cleandata/trim_galore(rna) vip13t21 14:22:29 ~/project/GSE106901/data$ lscleandata qc rawData(rna) vip13t21 14:22:30 ~/project/GSE106901/data$ cd cleandata/(rna) vip13t21 14:22:33 ~/project/GSE106901/data/cleandata$ lstrim_galore
样本过滤
```git定义文件夹
rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata
生成sample.ID
(rna) vip13t21 14:36:27 ~/project/GSE106901/data/cleandata $ ls /home/data/vip13t21/project/GSE106901/data/rawData/*.gz | cut -d ‘/‘ -f 9 | cut -d ‘.’ -f 1 > sample.ID (rna) vip13t21 14:36:41 ~/project/GSE106901/data/cleandata $ ls sample.ID trim_galore
写bash脚本
vim tram_galore.bash
脚本内容
rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata
cat /home/data/vip13t21/project/GSE106901/data/cleandata/sample.ID | while read id do trim_galore -j 50 —phred33 -q 20 —length 36 —stringency 3 —fastqc —paired —max_n 3 -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz done
提交后台
nohup sh trim_galore.sh >trim_galore.log &
<a name="d1eyW"></a># fastpfastp是一款数据质控过滤软件。- 可以实现处理数据的**一次性处理**,包括**过滤低质量,过滤adapter,截取reads,split分割大文件**等操作;- 2、支持长reads,也就是不仅仅适用与illumina测序平台,还可以**处理Pacbio和Ion torrent的测序**数据;- 3、直接输出**质控和统计报告**,包括json格式和html格式;- 4、使用c++写的,**执行效率非常高**;官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp)<br /><a name="WXYHD"></a>## 常用参数<br />引用自:[https://blog.csdn.net/sinat_32872729/article/details/94440265](https://blog.csdn.net/sinat_32872729/article/details/94440265)<a name="JQUmF"></a>## 过滤流程<a name="86m27"></a>### 新建文件夹```gitmkdir fastp
样本过滤
# 定义文件夹# 目录改成自己的目录,否则会报错:permission deny.cleandata=/home/t_rna/project/Human-16-Asthma-Trans/data/cleandata/fastprawdata=/teach/t_rna/project/Human-16-Asthma-Trans/data/rawdata/fastq_25000/# 单个样本fastp -i $rawdata/SRR1039510_1.fastq.gz \-I $rawdata/SRR1039510_2.fastq.gz \-o $cleandata/SRR1039510_1.fastp.fq.gz \-O $cleandata/SRR1039510_2.fastp.fq.gz \-h $cleandata/SRR1039510.html \-j $cleandata/SRR1039510.json \-l 36 -q 20 --compression=6 -R $cleandata/SRR1039510# 多个样本cat /teach/t_rna/data/airway/sra/sample.ID | while read iddofastp -l 36 -q 20 --compression=6 \-i ${rawdata}/${id}_1.fastq.gz \-I ${rawdata}/${id}_2.fastq.gz \-o ${cleandata}/${id}_1.fastp.fq.gz \-O ${cleandata}/${id}_2.fastp.fq.gz \-R ${cleandata}/${id} \-h ${cleandata}/${id}.fastp.html \-j ${cleandata}/${id}.fastp.json \1>$cleandata/${id}.fastp.log 2>&1done# 挂后台nohup sh fastp.sh >fastp.log &
数据过滤前后对比
部分序列长度发生变化
