介绍
植物 LTR 逆转座子主要分为两个超家族:Ty1/copia 和 Ty3/gypsy。基于它们的核酸序列的高多态性,可以进一步分成很多家族。
为了更好地进行分类,REXdb(http://repeatexplorer.org/)。该数据库被设计用于 RepeatExplorer 的流程中,所以取名为 RepeatExplorer database,即 REXdb。之后一些软件也基于该数据库进行 LTR 的分类,如 TEsorter(https://github.com/zhangrengang/TEsorter)、。
数据库的构建过程可以参考原文:
Neumann, P., Novák, P., Hoštáková, N. et al. Systematic survey of plant LTR-retrotransposons elucidates phylogenetic relationships of their polyprotein domains and provides a reference for element classification. Mobile DNA 10, 1 (2019). https://doi.org/10.1186/s13100-018-0144-1
我下面是对于原文信息的一些提取。
作者从 80 个
背景
植物的LTR反转座子被分为两大超家族:Ty1/copia和Ty3/gypsy。它们进一步被分为大量的家族,由于这些家族的核苷酸序列高度多样化,通常特定于单一或一组密切相关的物种。此前的尝试将这些家族归为反映其系统发育关系的更广泛的类别,往往局限于分析少数植物物种或仅分析少量的元素。此外,目前还没有一个基于相似性进行LTR反转座子分类的参考数据库。
研究结果
我们组建了一个数据库,其中包含从80个代表绿色植物(Viridiplantae)主要类群的物种中抽取的5410个Ty1/copia元素和8453个Ty3/gypsy元素中编码的多聚蛋白域序列。通过对三种最为保守的多聚蛋白域(RT,RH和INT)的系统发育分析,将Ty1/copia和Ty3/gypsy反转座子分别划分为16个和14个谱系。我们还表征了LTR反转座子序列的各种特征,包括其他多聚蛋白域、额外的开放阅读框(ORFs)和引物结合位点(PBS),并发现这些特征的出现和/或类型与从这三种蛋白域推断的系统发育关系相关联。
结论
我们建立了一套改进的分类系统,适用于来自广泛植物物种的LTR反转座子。该系统不仅反映了它们的系统发育关系,还包括了这些元素的独特序列和结构特征。我们建立了一个包含反转座子蛋白域的综合数据库(REXdb),该数据库反映了此分类系统,并为植物基因组中LTR反转座子的高效和统一注释提供了参考。与REXdb相关的工具可通过RepeatExplorer网页服务器(https://repeatexplorer-elixir.cerit-sc.cz/)访问,或者通过RepeatExplorer网页(http://repeatexplorer.org/)单独下载REXdb的独立版本。
背景
长末端重复序列(LTR)反转座子是一个非常庞大且多样的可移动元件群,广泛存在于真核生物中。它们在植物基因组中特别丰富,最多可占到核DNA的75%[1]。LTR反转座子通过RNA中间体复制(拷贝-粘贴机制),生成新的元件拷贝,整合后增加宿主基因组的大小。大量证据表明,这个过程是基因组大小进化的主要驱动力之一[2,3,4,5],导致在允许LTR反转座子积累的物种中出现极其庞大的基因组[6]。虽然LTR反转座子常被视为基因组寄生物,但它们可能通过提供调控基因元件[7]、推动快速基因组变化[8,9]或作为某些特定基因组区域(如着丝粒)的一部分[10,11],对其宿主有益。研究这些过程对于理解基因组进化和功能至关重要。最近,由于积累了来自各种植物类群的基因组序列数据,这些研究变得可行。然而,由于这些高度多样化的元件缺乏通用且易于应用的分类系统,这些研究的实施变得复杂。
目前,LTR反转座子通常只分类到超家族水平(LTR反转座子分类的最广泛类别),包括Ty1/copia(在国际病毒分类委员会的分类中称为Pseudoviridae家族)、Ty3/gypsy(Metaviridae家族)、Bel-Pao(Belpaoviridae家族)、逆转录病毒(Retroviridae家族)和内源性逆转录病毒(ERV;Retroviridae家族)[12,13,14]。在植物中,只有两个超家族Ty1/copia和Ty3/gypsy存在,并且包含了大量的多样化元件。显然,这样的分类缺乏详细性。另一方面,基于共享最低限度的核苷酸序列相似性对LTR反转座子序列进行家族分类的研究(例如[12,15]),往往只形成由密切相关物种中高度相似的元件组成的组。虽然这种方法可能对研究特定物种有用,但它很可能忽略了家族之间的许多系统发育关系,并且不允许比较更远亲的类群中的反转座子群体。此外,由于缺乏参考数据库和明确的分类指南,属于同一家族的元件有时被用不同的名称描述。例如,几乎相同的水稻着丝粒反转座子序列被分别命名为RIRE7、CRR1和Osr31[16,17,18]。因此,需要一个更好的分类系统。这样的系统可以通过引入一个中间类别,填补超家族和家族分类之间的空白,将来自不同植物类群的元件进行分组,更好地反映它们的真实系统发育关系。
尽管LTR反转座子的核苷酸序列高度多样化,但它们的整体结构高度保守。LTR反转座子的一个共同特征是其中央区域两侧的两个直接重复序列(即5’ LTR和3’ LTR)。LTRs包括转录起始和终止位点,对于元件的复制至关重要。大多数LTR反转座子在5’ LTR下游有一个引物结合位点(PBS),在3’ LTR上游有一个多嘌呤区(PPT)。一旦整合,LTR反转座子会生成特定家族特有长度的目标位点重复(TSD)。完整的自主元件编码一个包含至少五个蛋白域的多聚蛋白:GAG、蛋白酶(PROT)、逆转录酶(RT)、核糖核酸酶H(RH)和整合酶(INT)。通过PROT域的活性将该多聚蛋白切割,释放出用于复制和将新反转座子拷贝整合到基因组中的各个成熟蛋白。这些蛋白序列在Ty1/copia和Ty3/gypsy超家族的所有元件中被发现具有足够的保守性,可用于系统发育分析[19,20,21,22,23]。这一点,加上对特定结构特征的评估,为基于系统发育的LTR反转座子分类提供了基础。
迄今为止,大多数对LTR反转座子进行的系统发育研究依赖于对RT、RH和INT域的分析,因为它们已被很好地表征并且相对保守[19,22,23]。最全面的LTR反转座子系统发育研究之一由Llorens等人[20,21]进行,他们分析了广泛的真核生物中的LTR反转座子,包括来自26个绿色植物类群的24个Ty1/copia和30个Ty3/gypsy元件。他们鉴定出五个植物Ty1/copia元件的谱系,分别命名为Oryco、Sire、Retrofit、Osser和Tork(表1)。发现植物中的Ty3/gypsy元件属于两个主要谱系:染色体病毒谱系和Tat/Athila谱系,其中前者由Del、Reina、CRM和Galadriel类群组成,后者由Tat和Athila类群组成(表2)。Wicker和Keller[24]检查了来自大麦、小麦、水稻和拟南芥的599个Ty1/copia元件,并将其分类为六个古老谱系(Maximus、Ivana、Ale、Angela、TAR和Bianca,表1),所有这些谱系都被预测在单子叶植物和双子叶植物分化之前就已存在。然而,由于只对少数物种中的少量序列进行了采样,这些谱系和类群只代表了植物中LTR反转座子多样性的很小一部分。其他研究要么分析了密切相关物种群体中的元素[25,26],要么专注于特定的LTR反转座子谱系,例如染色体病毒[11,27,28,29,30,31]、Athila[32]、Ogre[33]、Tat[34]或SIRE[35,36,37]。虽然这些研究展示了基于系统发育分类的潜力,但它们的结果难以统一和概括,因为:1)包含的植物物种数量和分析的元素数量和种类各不相同,2)系统发育是基于不同的数据类型(即多聚蛋白序列的不同片段)推导的,并使用了不同的分析方法,3)基于的元件结构和序列特征信息有限,4)并非所有研究都使用相同的命名系统。
我们试图通过在现有的绿色植物序列数据中进行广泛搜索来克服先前研究的局限性。这些LTR反转座子序列随后被分类为不同的谱系,主要基于从其多聚蛋白序列中提取的保守域的系统发育分析,同时也考虑了元件的结构和序列特征的差异。这种方法消除了比较高度分化的核苷酸序列时的问题,因为保守蛋白域使我们能够在所有Ty1/copia和Ty3/gypsy超家族中构建有意义的比对。已鉴定和分类的蛋白域序列作为参考数据库提供,以改进和统一未来对植物基因组中LTR反转座子的注释。我们还将我们的结果与先前的分类系统进行了比较。