介绍
CD-HIT(Cluster Database at High Identity with Tolerance,https://bioinformatics.org/cd-hit/)以fasta格式的序列数据库作为输入,并生成一组“非冗余”(non-redundant,nr)的代表序列作为输出。此外,cd-hit还输出一个簇(cluster)文件,记录每个nr代表序列的序列“成员”。其目的是在不删除任何序列信息的情况下,通过仅移除“冗余”(或高度相似)的序列来减少数据库的总体大小。这就是为什么生成的数据库被称为非冗余(nr)数据库的原因。本质上,cd-hit从给定的fasta序列数据库中生成一组密切相关的蛋白质家族。
CD-HIT使用“最长序列优先”的列表移除算法来移除高于某个身份阈值的序列。此外,该算法实现了一种非常快速的启发式方法,以在序列之间找到高身份片段,从而避免了许多高成本的全对齐操作。
随着最近的发展,cd-hit软件包提供了用于DNA序列聚类和比较两个数据库的新程序。它还具有许多用于聚类控制的新选项。
下载
使用
运行
参考
官网:http://bioinformatics.org/cd-hit/
文献:Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences (2006)
文献:CD-HIT: accelerated for clustering the next-generation sequencing data (2012)