image.png

FastQC

FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下一步修剪过滤提供参考.

网址

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
image.png

常见参数

  1. -h/--help ## 打印文档信息
  2. -o/--outdir ## 输出目录(一定要存在,否则会报错)
  3. -j/--java ## 指定java路径,默认即可
  4. -f/--format ## 指定输入格式,默认为fastq。可以选择bam,sam
  5. -t/--threads ## 线程数
  6. -v/--versions ## 版本信息
  7. -d/--dir ## 质控过程中产生的临时文件

质量评估步骤

激活conda环境并进入工作目录

  1. conda activate rna

准备原始数据文件

此步骤的数据应该来自下载数据,详见:
03 数据下载

使用FastQC软件对单个fastq文件评估

  1. ## 定义环境变量,分别是输出环境和原始文件环境
  2. qcdir=/home/data/vip13t21/project/GSE106901/data/qc
  3. fqdir=/home/data/vip13t21/project/GSE106901/data/rawData
  4. ## fastqc进行质量评估
  5. fastqc -t 50 -o $qcdir $fqdir/SRR6292394.fastq.gz

批量数据评估

推荐使用vim命令写脚本,利用nohup和bash命令挂后台运行

  1. ## 写脚本
  2. vim fastqc.sh
  3. ## 脚本内容
  4. ## 定义环境变量,分别是输出环境和原始文件环境
  5. qcdir=/home/data/vip13t21/project/GSE106901/data/qc
  6. fqdir=/home/data/vip13t21/project/GSE106901/data/rawData
  7. ## fastqc进行质量评估
  8. fastqc -t 50 -o $qcdir $fqdir/SRR*.fastq.gz
  9. ## 挂后台
  10. nohup bash fastqc.sh 1>fastqc.sh.log 2>&1 &

运行结束界面如下:
qc文件夹:
image.png
fq文件夹:
image.png
脚本日志:
image.png

使用MultiQC命令整合FastQC结果

每个数据都会有一个质量检测文件,阅读不便,利用multiqc命令整合为一个文件。

评估数据解读

评估数据汇总如下:
image.png

Basic Statistics

左上角绿色对勾代表样品合格。
image.png

注:数据量统计方式

image.png

Per base sequence quality

image.png
此图代表各个位置的碱基质量均在可接受范围内:Q30以上。
低质量数据如下所示:
image.png

Per Tile Sequence Quality

image.png
低质量数据如下所示:
image.png

Per Sequence Quality Scores

image.png
低质量数据如下:
image.png

Per Base Sequence Content

image.png
这个数据的Per Base Sequence Content指标不太好

Per sequence GC content

image.png
低质量数据如下:
image.png
提示可能出现了序列污染或者核糖体RNA污染

Per base N content

仪器若未识别任何碱基,则判定为N
image.png

Sequence Length Distribution

image.png

Sequence Duplication Levels

image.png

Adapter Content

image.png
更多参考:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

MultiQC报告

为了综合评估所有的样本,使用multiqc命令整合
整合前:
image.png
代码

  1. multiqc *zip

整合后:
image.png