过滤条件
测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性,需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序列质量控制的标准为:
- 去除含接头的reads;
- 过滤去除低质量值数据,确保数据质量;
- 去除含有N(无法确定碱基信息)的比例大于5%的reads;
trim_galore
网址:https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/常用参数
-j/--cores ## 使用线程数
-q/--quality ## 切除质量得分低于设置值的序列。默认为0
--phred33/--phred64 ## 使用不同质量得分作为phred得分标准。默认为33
-a/--adapter ## 输入序列,也可不输入(软件自动匹配)
--length ## 长度小于设定值的reads将被丢弃
--max_length ## 长度大于设定值的reads将被丢弃
--stringency ## 限定最少与adaptor序列重叠的碱基数
--paired ## 对于双端测序,其中一个不合格则另一个也会被剔除
-o/--output_dir ## 设定输出目录(必须存在,否则报错)
--fastqc ## 剪切结束后,对剪切后文件进行fastqc检测
--max_n ## 去除含有N大于n的序列
过滤流程
新建文件夹
(rna) vip13t21 14:20:56 ~/project/GSE106901/data
$ ls
qc rawData
(rna) vip13t21 14:21:54 ~/project/GSE106901/data
$ mkdir -p cleandata/trim_galore
(rna) vip13t21 14:22:29 ~/project/GSE106901/data
$ ls
cleandata qc rawData
(rna) vip13t21 14:22:30 ~/project/GSE106901/data
$ cd cleandata/
(rna) vip13t21 14:22:33 ~/project/GSE106901/data/cleandata
$ ls
trim_galore
样本过滤
```git定义文件夹
rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata
生成sample.ID
(rna) vip13t21 14:36:27 ~/project/GSE106901/data/cleandata $ ls /home/data/vip13t21/project/GSE106901/data/rawData/*.gz | cut -d ‘/‘ -f 9 | cut -d ‘.’ -f 1 > sample.ID (rna) vip13t21 14:36:41 ~/project/GSE106901/data/cleandata $ ls sample.ID trim_galore
写bash脚本
vim tram_galore.bash
脚本内容
rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata
cat /home/data/vip13t21/project/GSE106901/data/cleandata/sample.ID | while read id do trim_galore -j 50 —phred33 -q 20 —length 36 —stringency 3 —fastqc —paired —max_n 3 -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz done
提交后台
nohup sh trim_galore.sh >trim_galore.log &
<a name="d1eyW"></a>
# fastp
fastp是一款数据质控过滤软件。
- 可以实现处理数据的**一次性处理**,包括**过滤低质量,过滤adapter,截取reads,split分割大文件**等操作;
- 2、支持长reads,也就是不仅仅适用与illumina测序平台,还可以**处理Pacbio和Ion torrent的测序**数据;
- 3、直接输出**质控和统计报告**,包括json格式和html格式;
- 4、使用c++写的,**执行效率非常高**;
官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp)<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1628594908686-eda50235-1e34-471e-9210-0fbe1f8395f0.png#align=left&display=inline&height=636&margin=%5Bobject%20Object%5D&name=image.png&originHeight=1272&originWidth=1363&size=145680&status=done&style=shadow&width=681.5)
<a name="WXYHD"></a>
## 常用参数
![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1628595114205-9836f485-1cd0-43c4-a061-2b9ea8cd9a5c.png#align=left&display=inline&height=191&margin=%5Bobject%20Object%5D&name=image.png&originHeight=381&originWidth=998&size=53836&status=done&style=shadow&width=499)<br />引用自:[https://blog.csdn.net/sinat_32872729/article/details/94440265](https://blog.csdn.net/sinat_32872729/article/details/94440265)
<a name="JQUmF"></a>
## 过滤流程
<a name="86m27"></a>
### 新建文件夹
```git
mkdir fastp
样本过滤
# 定义文件夹
# 目录改成自己的目录,否则会报错:permission deny.
cleandata=/home/t_rna/project/Human-16-Asthma-Trans/data/cleandata/fastp
rawdata=/teach/t_rna/project/Human-16-Asthma-Trans/data/rawdata/fastq_25000/
# 单个样本
fastp -i $rawdata/SRR1039510_1.fastq.gz \
-I $rawdata/SRR1039510_2.fastq.gz \
-o $cleandata/SRR1039510_1.fastp.fq.gz \
-O $cleandata/SRR1039510_2.fastp.fq.gz \
-h $cleandata/SRR1039510.html \
-j $cleandata/SRR1039510.json \
-l 36 -q 20 --compression=6 -R $cleandata/SRR1039510
# 多个样本
cat /teach/t_rna/data/airway/sra/sample.ID | while read id
do
fastp -l 36 -q 20 --compression=6 \
-i ${rawdata}/${id}_1.fastq.gz \
-I ${rawdata}/${id}_2.fastq.gz \
-o ${cleandata}/${id}_1.fastp.fq.gz \
-O ${cleandata}/${id}_2.fastp.fq.gz \
-R ${cleandata}/${id} \
-h ${cleandata}/${id}.fastp.html \
-j ${cleandata}/${id}.fastp.json \
1>$cleandata/${id}.fastp.log 2>&1
done
# 挂后台
nohup sh fastp.sh >fastp.log &
数据过滤前后对比
部分序列长度发生变化