vcf文件

vcf就是一个尤为重要的基本数据格式,里面描述的是变异位点的信息,是一个表格形式,不同的表头下面有着不同的信息。VCF格式本来由千人基因组计划提出来,方便描述他们找到的海量(当时是海量)变异位点。但是它对每一行每一列有具体的定义,包括文件最前面一些#开头的注释信息(后面每一个位点的描述的tag都在这个注释信息里面可以找到)

vcf文件正文部分

以下是vcf正文部分

rna-vcf文件 - 图1

  • CHROM: 参考序列的名称
  • POS:variant的位置
  • ID: variant的ID, 比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用.表示其为一个novel variant
  • REF: 参考序列的碱基
  • ALT: variant的碱基
  • QUAL:Phred格式Phred_scaled的质量值,表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred = -10 * log (1-p) pvariant存在的概率; 通过计算公式可以看出Phread值为10的表示错误概率为0.1,该位点为variant的概率为90%
  • FILTER: 使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为PASS;若variant不可靠,则该项不为PASS.
  • INFO:variant的详细信息,见下
  • FORMAT : variants的格式,例如GT:AD:DP:GQ:PL
  • SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号
    分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。

FORMAT 列 (9/10列)

示例文件的9、10列

  1. FORMAT .//test1/07.variant_calling/cells/cell458/cell458_sorted.bam
  2. GT:PL 1/1:72,2,0
  3. GT:PL 1/1:255,255,0
  4. GT:PL 1/1:255,255,0
  • GT: genotype
    表示样品的基因型, 0表示样品中有ref的allele(可初步理解为和ref的碱基相同,即和REF相同);1表示样品中的variant的allele(可以理解为和variant变异后的碱基相同,即和ALT相同);2表示有第二个variant的allele(和ALT的第二种碱基相同
  1. 0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
  2. 0/1表示sample中该位点为杂合突变,有REFALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
  3. 1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
  4. 1/2表示sample中该位点为杂合突变,有ALT1ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)
  • PL(likelihood genotypes)
    指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10log(P),P为基因型存在的概率。*最有可能的genotype的值为0。
  1. GT:PL 1/1:72,2,0

INFO列

INFO 非常复杂,该列信息最多,看起来是一列,但是里面可以无限包容,可以根据字段拆分成多列,都是以 “TAG=Value”,并使用;分隔的形式。其中很多的TAG含义在VCF文件的头部注释信息##INFO中已给出。

  1. AC(Allele Count) 表示该Allele的数目
  2. AF(Allele Frequency) 表示Allele的频率
  3. AN(Allele Number) 表示Allele的总数目

实例中的INFO列

  1. DP=24;VDB=1.60207e-05;SGB=-0.651104;RPB=1;MQB=1;BQB=1;MQ0F=0;AC=2;AN=2;DP4=1,0,8,0;MQ=60

DP: reads覆盖度。是一些reads被过滤掉后的覆盖度

VDB: Variant Distance Bias for filtering splice-site artefacts in RNA-seq data (bigger is better)

SGB: egregation based metric

RPB: Mann-Whitney U test of Read Position Bias (bigger is better)

MQB: Mann-Whitney U test of Mapping Quality Bias (bigger is better)

BQB: Mann-Whitney U test of Base Quality Bias (bigger is better)

MQ0F: Fraction of MQ0 reads (smaller is better)

DP4: Number of high-quality ref-forward , ref-reverse, alt-forward and alt-reverse bases

  1. DP4=1,0,8,0

MQ: Average mapping quality