过滤条件

测序得到的原始序列含有接头序列或低质量序列，为了保证信息分析的准确性，需要对原始数据进行质量控制，得到高质量序列（即Clean Reads），原始序列质量控制的标准为：

去除含接头的reads；
过滤去除低质量值数据，确保数据质量；

去除含有N（无法确定碱基信息）的比例大于5%的reads；

trim_galore

网址：https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

常用参数

-j/--cores                   ## 使用线程数
-q/--quality                 ## 切除质量得分低于设置值的序列。默认为0
--phred33/--phred64          ## 使用不同质量得分作为phred得分标准。默认为33
-a/--adapter                 ## 输入序列，也可不输入（软件自动匹配）
--length                     ## 长度小于设定值的reads将被丢弃
--max_length                 ## 长度大于设定值的reads将被丢弃
--stringency                 ## 限定最少与adaptor序列重叠的碱基数
--paired                     ## 对于双端测序，其中一个不合格则另一个也会被剔除
-o/--output_dir              ## 设定输出目录（必须存在，否则报错）
--fastqc                     ## 剪切结束后，对剪切后文件进行fastqc检测
--max_n                      ## 去除含有N大于n的序列

过滤流程

新建文件夹

(rna) vip13t21 14:20:56 ~/project/GSE106901/data
$ ls
qc  rawData
(rna) vip13t21 14:21:54 ~/project/GSE106901/data
$ mkdir -p cleandata/trim_galore
(rna) vip13t21 14:22:29 ~/project/GSE106901/data
$ ls
cleandata  qc  rawData
(rna) vip13t21 14:22:30 ~/project/GSE106901/data
$ cd cleandata/
(rna) vip13t21 14:22:33 ~/project/GSE106901/data/cleandata
$ ls
trim_galore

样本过滤

```git

定义文件夹

rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata

生成sample.ID

(rna) vip13t21 14:36:27 ~/project/GSE106901/data/cleandata $ ls /home/data/vip13t21/project/GSE106901/data/rawData/*.gz | cut -d ‘/‘ -f 9 | cut -d ‘.’ -f 1 > sample.ID (rna) vip13t21 14:36:41 ~/project/GSE106901/data/cleandata $ ls sample.ID trim_galore

写bash脚本

vim tram_galore.bash

脚本内容

rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata

cat /home/data/vip13t21/project/GSE106901/data/cleandata/sample.ID | while read id do trim_galore -j 50 —phred33 -q 20 —length 36 —stringency 3 —fastqc —paired —max_n 3 -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz done

提交后台

nohup sh trim_galore.sh >trim_galore.log &


<a name="d1eyW"></a>
# fastp
fastp是一款数据质控过滤软件。
- 可以实现处理数据的**一次性处理**，包括**过滤低质量，过滤adapter，截取reads，split分割大文件**等操作；
- 2、支持长reads，也就是不仅仅适用与illumina测序平台，还可以**处理Pacbio和Ion torrent的测序**数据；
- 3、直接输出**质控和统计报告**，包括json格式和html格式；
- 4、使用c++写的，**执行效率非常高**；
官网：[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp)<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1628594908686-eda50235-1e34-471e-9210-0fbe1f8395f0.png#align=left&display=inline&height=636&margin=%5Bobject%20Object%5D&name=image.png&originHeight=1272&originWidth=1363&size=145680&status=done&style=shadow&width=681.5)
<a name="WXYHD"></a>
## 常用参数
![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1628595114205-9836f485-1cd0-43c4-a061-2b9ea8cd9a5c.png#align=left&display=inline&height=191&margin=%5Bobject%20Object%5D&name=image.png&originHeight=381&originWidth=998&size=53836&status=done&style=shadow&width=499)<br />引用自：[https://blog.csdn.net/sinat_32872729/article/details/94440265](https://blog.csdn.net/sinat_32872729/article/details/94440265)
<a name="JQUmF"></a>
## 过滤流程
<a name="86m27"></a>
### 新建文件夹
```git
mkdir fastp

样本过滤

# 定义文件夹
# 目录改成自己的目录，否则会报错：permission deny.
cleandata=/home/t_rna/project/Human-16-Asthma-Trans/data/cleandata/fastp
rawdata=/teach/t_rna/project/Human-16-Asthma-Trans/data/rawdata/fastq_25000/
# 单个样本
fastp -i $rawdata/SRR1039510_1.fastq.gz \
      -I $rawdata/SRR1039510_2.fastq.gz \
      -o $cleandata/SRR1039510_1.fastp.fq.gz \
      -O $cleandata/SRR1039510_2.fastp.fq.gz \
      -h $cleandata/SRR1039510.html \
      -j $cleandata/SRR1039510.json \
      -l 36 -q 20 --compression=6 -R $cleandata/SRR1039510
# 多个样本
cat /teach/t_rna/data/airway/sra/sample.ID | while read id
do
  fastp -l 36 -q 20 --compression=6 \
  -i ${rawdata}/${id}_1.fastq.gz \
  -I ${rawdata}/${id}_2.fastq.gz \
  -o ${cleandata}/${id}_1.fastp.fq.gz \
  -O ${cleandata}/${id}_2.fastp.fq.gz \
  -R ${cleandata}/${id} \
  -h ${cleandata}/${id}.fastp.html \
  -j ${cleandata}/${id}.fastp.json \
  1>$cleandata/${id}.fastp.log 2>&1
done
# 挂后台
nohup sh fastp.sh >fastp.log &

数据过滤前后对比

部分序列长度发生变化

生信基础入门

06 数据质控2-数据过滤

过滤条件

trim_galore

常用参数

过滤流程

新建文件夹

样本过滤

定义文件夹

生成sample.ID

写bash脚本

脚本内容

提交后台

样本过滤

数据过滤前后对比