介绍
Dfam(https://dfam.org)是一个开放获取的重复 DNA 家族、序列模型和基因组注释数据库。
https://github.com/Dfam-consortium/FamDB
自 Dfam 3.0 以来的版本提供了辅助共识序列模型(auxiliary consensus sequence models)、转座蛋白比对以及正式分类系统,以支持资源中所代表的日益多样化的生物体。最新版本包括来自 336 个物种的新生成的 266,740 个转座子家族,由 EBI 提供。这一扩展展示了 Dfam 新功能的实用性,并提供了对改善新生成的转座子数据集长期挑战的洞察。
许多基因组的相当一部分由转座子(TE)拷贝组成。随着时间的推移,源自转座子的序列在基因组中逐渐衰减,这使得其发现和特征描述变得具有挑战性。然而,准确注释和描述这些元素对于理解它们对其所处基因组及整个物种演化的影响至关重要。转座子对基因组和/或物种的影响可以是直接的,例如插入编码区、适应新功能或由于非同源重组引起的染色体重排,或者是间接的,例如宿主与寄生虫之间的“军备竞赛”。
长期以来,通过两种互补策略的结合,在基因组中识别转座子的实例:从头预测(de novo detection)和数据库驱动的注释。在从头预测中,使用各种方法识别和分类转座子活动的残余。以这种方式识别的家族通常在数据库(如 Dfam)中进一步策划和编目。在数据库驱动的注释中,数据库中的每个序列与被注释的基因组进行比对,最佳比对决定基因组序列的标签。这些数据库长期以来使用共识序列来表示每个家族。然而,这种搜索往往会漏掉高度变异的序列,促使我们探索使用轮廓法(profile methods)以提高敏感性。
在 2012 年,我们发布了 Dfam,一个人类基因组中转座子家族的数据库,其中每个家族由多个序列比对(MSA)和 profile 隐马尔可夫模型(HMM)表示。profile HMM 部分通过对家族 MSA 中位置特异性残基和插入/缺失(indel)变异性的建模来提高灵敏度。
Dfam 的首次发布是基于类似蛋白质(Pfam)和 RNA(Rfam)家族数据库的设计。除了通过使用 profile HMM 提高注释敏感性外,Dfam 还通过严格定义的阈值降低了假发现率。这些数据库的另一个优势是保留了代表性家族成员的多个序列比对,即种子比对。种子比对与模型无关,提供了覆盖率和碎片化的详细信息,并为家族提供了重要的来源信息。
Dfam 后续的发布改进了原型数据库,并适度扩大了五个模型生物的策划库(4150 个家族)。在 2018 年,Dfam 获得资金,以将其从概念验证转变为生产社区资源,主要通过以下四个方面:(1)扩展系统架构;(2)支持从种子比对派生的多种模型类型(HMM 和共识序列);(3)提高注释速度和质量;最重要的是(4)吸引社区参与其进一步发展。在本文中,我们将描述在最新发布系列(Dfam 3.0 到 3.3)中代表的成就以及未来面临的挑战。这些成就包括对共识模型的支持、具有交互式浏览器的层次化 TE 分类系统、涵盖各种 DNA 转座子类别的 TE 末端库,以及在 Dfam 中针对现有策划数据集的“未策划”或“原始”数据集的框架。
Dfam 3.3 目前包含 273,655 个家族:112,455 个逆转录转座子,101,711 个 DNA 转座子,以及 59,489 个其他重复序列,这些包括未知来源的插入重复序列、卫星区域和/或其他非转座子条目,以避免将非编码 RNA 基因注释为转座子。
目前,Dfam 的生物多样性覆盖面小于 Repbase,这主要是因为 Repbase 是一个封闭数据库,并且已有二十年的数据积累时间;随着开放框架的发展,以便于社区贡献,Dfam 中的数据获取速度预计将迅速缩小这一差距。
共识模型
虽然使用 HMM 可以改善基因组中转座子拷贝的检测,但大多数序列分析算法(如 Smith-Waterman、Needleman-Wunsch 等)和流行的序列分析工具(如 BLAST、BLAT 等)直接作用于序列的字符串表示(例如,共识序列)。同样,用于定义新转座子(de novo 重复查找器)、扩展碎片化模型、揭示相关转座子之间关系、分类元素或描述生物特征(如外显子)的程序通常无法直接生成或利用 HMM。因此,Dfam 中的每个转座子模型都应伴随一个简单的序列模型;从种子比对中导出的共识序列是一个合理的候选者。
将共识序列作为序列家族的初级模型的使用有着丰富的历史,已证明其效用 [2, 9, 10, 11]。共识通常是通过考虑转座子拷贝的多序列比对中列的占用情况和组成来构建的。一个基本的共识调用程序可能会为任何给定的列分配该列中发现的主要核苷酸,而不考虑占用率(列中同源核苷酸的数量与缺口的数量之比)。一个更复杂的调用程序会考虑缺口,并根据在给定基因组中的观察到的替代率做出碱基调用。
大多数源自转座子的序列没有功能约束,以随机和中性的方式累积突变。考虑到这种随机噪声,经过适当对齐的足够数量的拷贝可以期望产生反映原始活跃转座子序列的明智共识。这在大多数“II 类元素”或“DNA 转座子”的真核生物中表现得尤为明显;由于转座酶对基因组拷贝的转活性,这些元素在其短暂的基因组生命中不太可能发生进化,因此会产生与原始序列具有星状系统发育关系的拷贝(图 1)[12]。对于大多数 I 类元素,情况则更复杂,它们通过反转录步骤进行复制;由于反转录酶对自身 mRNA 的顺式活性,它们可能会进化,例如逃避宿主的防御机制,并在基因组中传播数亿年。对于这些元素,仔细将拷贝聚类成所谓的亚家族将产生一系列相互关联的共识序列,这些序列可以被解读为转座子序列在其进化过程中的快照,尽管每个序列仍可能是不同活跃元素的组成。
共识序列接近原始转座子序列的概念已通过通过将死亡拷贝修改为共识而复活最近灭绝的转座子得到了验证 [13, 14],并且通过恢复古老元素的预期序列特征得到了印证。例如,在我们基因组中,许多活跃于超过 1 亿年前的编码转座子的共识序列包含完整的开放阅读框(ORF)[15],尽管它们的单个拷贝已经积累了许多突变,以至于彼此之间的核苷酸平均共享不到一半,且通常无法成对比对。
尽管 Repbase 作为一个参考数据库,包含(单拷贝)基因组间隔重复 DNA 的原型 [16],我们在 1994 年就开始开发共识序列表示 [11]。这一努力不仅解释了大多数重复 DNA 的生物学起源,而且使用共识序列而不是基因组拷贝改善了对较旧和因此变异较大的拷贝的检测。基因组拷贝的集合具有冗余性,并且包含如简单重复在单个拷贝中扩展的低复杂度序列,这两者都导致了较低的特异性。更重要的是,转座子的单个拷贝与原始序列之间的突变数量平均是共识与原始序列之间的突变数量的两倍,从而显著提高了灵敏度。
在 Dfam 中,我们现在为数据库中的每个家族提供了剖面 HMM 和辅助共识序列模型。这两个模型都是从单个种子比对中推导出来的,这样可以保持来源信息并同时改进这两种模型。最重要的是,Dfam 在共识和 HMM 位置之间保持对应关系,以便通过任一模型生成的比对可以直接进行比较。在 Dfam 中,共识序列是通过一个我们最初用于为 Repbase 构建许多共识序列的调用程序生成的。该程序使用反映基因组中中性替代模式的对数优势替代矩阵,分配得分最高的碱基,包括例如在哺乳动物中存在的强 GC → AT 偏向。它还通过考虑相邻列中 TG 和 CA 二聚体的频率推断祖先 CpG 位点 [17]。
参考
- https://www.dfam.org/
- https://github.com/Dfam-consortium/FamDB
- Storer, J., Hubley, R., Rosen, J. et al. The Dfam community resource of transposable element families, sequence models, and genome annotations. Mobile DNA 12, 2 (2021). https://doi.org/10.1186/s13100-020-00230-y
- Dfam-转座元件TEs数据库