介绍

GCE (genomic charactor estimator) is a bayes model based method to estimate the genome size, genomic repeat content and the heterozygsis rate of the sequencing sample. The estimated result can be used to design the sequencing strategy.

GCE软件包主要包含kmer_freq_hash和gce两个程序。前者对k-mer的频数进行统计,后者在前者的结果上对基因组的大小、重复序列含量和杂合率进行评估。

kmer_freq_hash命令的主要结果文件是species.freq.stat。该文件是对k-mers覆盖度的频数进行统计的结果。

下载

使用

kmer_freq_hash

  • -k: 设置k-mer大小,默认17。
  • -l: 输入一个列表形式的文本文件,每行为一个fastq文件的路径。
  • -t: 线程数。
  • -i: 初始hash表大小。
  • -p: 输出文件前缀。
  • -o: 是否输出一个包含所有k-mer序列及其频数的文件。1表示是,0表示否。
  • -q: 设置fastq文件的Pred格式,默认为64。
  • -c: 设置最小k-mer准确率。允许0~0.99或-1。默认-1表示不对k-mer进行过滤。
  • -r: 设置获取k-mer使用到的reads长度。
  • -a: 忽略read首部指定长度的碱基。
  • -d: 忽略read尾部指定长度的碱基。
  • -g: 设置使用指定数目的碱基来获取k-mers,默认是使用所有的碱基来获取k-mers。

gce

  • -f: 输入k-mer覆盖度的频数统计文件。
  • -c: k-mer覆盖度的频数统计文件中主峰对应的覆盖度。
  • -g: 设置k-mer总个数,该值来自kmer_freq_hash命令统计信息中Kmer_individual_num值。
  • -M: 设置支持最大的k-mer覆盖度的值,默认为256。
  • -m: 设置估计模型的选择,离散型(0),连续型(1),默认为0。
  • -D: 设置期望值的精度,默认为1。如果设置-m 1,推荐该参数为8。
  • -H: 设置默认杂合模式(1),或不使用杂合模式(0),默认为0。
  • -b: 设置数据是(1)否(0)有偏差。当设置k-mer长度大于19时,需要设置该参数值为1。
  1. gce -f test.freq -g total_kmer_num

运行

参考

  1. github 地址:https://github.com/fanagislab/GCE
  2. 公众号 | 小白鱼的生统笔记 | k-mer分析及基因组特征评估软件GCE