过滤条件

测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性,需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序列质量控制的标准为:

  1. 去除含接头reads
  2. 过滤去除低质量值数据,确保数据质量;
  3. 去除含有N(无法确定碱基信息)的比例大于5%的reads;

    trim_galore

    image.png
    网址:https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

    常用参数

    1. -j/--cores ## 使用线程数
    2. -q/--quality ## 切除质量得分低于设置值的序列。默认为0
    3. --phred33/--phred64 ## 使用不同质量得分作为phred得分标准。默认为33
    4. -a/--adapter ## 输入序列,也可不输入(软件自动匹配)
    5. --length ## 长度小于设定值的reads将被丢弃
    6. --max_length ## 长度大于设定值的reads将被丢弃
    7. --stringency ## 限定最少与adaptor序列重叠的碱基数
    8. --paired ## 对于双端测序,其中一个不合格则另一个也会被剔除
    9. -o/--output_dir ## 设定输出目录(必须存在,否则报错)
    10. --fastqc ## 剪切结束后,对剪切后文件进行fastqc检测
    11. --max_n ## 去除含有N大于n的序列

    过滤流程

    新建文件夹

    1. (rna) vip13t21 14:20:56 ~/project/GSE106901/data
    2. $ ls
    3. qc rawData
    4. (rna) vip13t21 14:21:54 ~/project/GSE106901/data
    5. $ mkdir -p cleandata/trim_galore
    6. (rna) vip13t21 14:22:29 ~/project/GSE106901/data
    7. $ ls
    8. cleandata qc rawData
    9. (rna) vip13t21 14:22:30 ~/project/GSE106901/data
    10. $ cd cleandata/
    11. (rna) vip13t21 14:22:33 ~/project/GSE106901/data/cleandata
    12. $ ls
    13. trim_galore

    样本过滤

    ```git

    定义文件夹

    rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata

生成sample.ID

(rna) vip13t21 14:36:27 ~/project/GSE106901/data/cleandata $ ls /home/data/vip13t21/project/GSE106901/data/rawData/*.gz | cut -d ‘/‘ -f 9 | cut -d ‘.’ -f 1 > sample.ID (rna) vip13t21 14:36:41 ~/project/GSE106901/data/cleandata $ ls sample.ID trim_galore

写bash脚本

vim tram_galore.bash

脚本内容

rawdata=/home/data/vip13t21/project/GSE106901/data/rawData cleandata=/home/data/vip13t21/project/GSE106901/data/cleandata

cat /home/data/vip13t21/project/GSE106901/data/cleandata/sample.ID | while read id do trim_galore -j 50 —phred33 -q 20 —length 36 —stringency 3 —fastqc —paired —max_n 3 -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz done

提交后台

nohup sh trim_galore.sh >trim_galore.log &

  1. <a name="d1eyW"></a>
  2. # fastp
  3. fastp是一款数据质控过滤软件。
  4. - 可以实现处理数据的**一次性处理**,包括**过滤低质量,过滤adapter,截取reads,split分割大文件**等操作;
  5. - 2、支持长reads,也就是不仅仅适用与illumina测序平台,还可以**处理Pacbio和Ion torrent的测序**数据;
  6. - 3、直接输出**质控和统计报告**,包括json格式和html格式;
  7. - 4、使用c++写的,**执行效率非常高**;
  8. 官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp)<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1628594908686-eda50235-1e34-471e-9210-0fbe1f8395f0.png#align=left&display=inline&height=636&margin=%5Bobject%20Object%5D&name=image.png&originHeight=1272&originWidth=1363&size=145680&status=done&style=shadow&width=681.5)
  9. <a name="WXYHD"></a>
  10. ## 常用参数
  11. ![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1628595114205-9836f485-1cd0-43c4-a061-2b9ea8cd9a5c.png#align=left&display=inline&height=191&margin=%5Bobject%20Object%5D&name=image.png&originHeight=381&originWidth=998&size=53836&status=done&style=shadow&width=499)<br />引用自:[https://blog.csdn.net/sinat_32872729/article/details/94440265](https://blog.csdn.net/sinat_32872729/article/details/94440265)
  12. <a name="JQUmF"></a>
  13. ## 过滤流程
  14. <a name="86m27"></a>
  15. ### 新建文件夹
  16. ```git
  17. mkdir fastp

样本过滤

  1. # 定义文件夹
  2. # 目录改成自己的目录,否则会报错:permission deny.
  3. cleandata=/home/t_rna/project/Human-16-Asthma-Trans/data/cleandata/fastp
  4. rawdata=/teach/t_rna/project/Human-16-Asthma-Trans/data/rawdata/fastq_25000/
  5. # 单个样本
  6. fastp -i $rawdata/SRR1039510_1.fastq.gz \
  7. -I $rawdata/SRR1039510_2.fastq.gz \
  8. -o $cleandata/SRR1039510_1.fastp.fq.gz \
  9. -O $cleandata/SRR1039510_2.fastp.fq.gz \
  10. -h $cleandata/SRR1039510.html \
  11. -j $cleandata/SRR1039510.json \
  12. -l 36 -q 20 --compression=6 -R $cleandata/SRR1039510
  13. # 多个样本
  14. cat /teach/t_rna/data/airway/sra/sample.ID | while read id
  15. do
  16. fastp -l 36 -q 20 --compression=6 \
  17. -i ${rawdata}/${id}_1.fastq.gz \
  18. -I ${rawdata}/${id}_2.fastq.gz \
  19. -o ${cleandata}/${id}_1.fastp.fq.gz \
  20. -O ${cleandata}/${id}_2.fastp.fq.gz \
  21. -R ${cleandata}/${id} \
  22. -h ${cleandata}/${id}.fastp.html \
  23. -j ${cleandata}/${id}.fastp.json \
  24. 1>$cleandata/${id}.fastp.log 2>&1
  25. done
  26. # 挂后台
  27. nohup sh fastp.sh >fastp.log &

数据过滤前后对比

部分序列长度发生变化
image.png