参考

特邀综述 | 植物基因组组装技术研究进展

1. 基因组测序策略

1.1 逐步克隆法

1.2 全基因组鸟枪法

基于全基因组鸟枪法的基因组测序步骤

2. 基因组特征预测

对于一个尚未进行基因组测序的植物物种,在开始基因组测序前,往往需要对该物种进行基因组概貌调查(genome survey)。一般通过两个途径:细胞遗传学基因组调查测序与分析,获得目标基因组大小、倍性、杂合性等基本信息,为后续基因组测序提供必要参考。

2.1 细胞遗传学分析

2.1.1 基于流式细胞术进行基因组大小测定

2.1.2 基于显微镜的细胞染色体观察

一种生物的染色体核型一般是相对稳定的,因此对该物种的核型进行分析鉴定是植物学分类及遗传研究的一个重要手段。细胞染色体的数目是染色体核型分析的重要组成部分。

2.2 基因组调查测序与 K-mer 分析

对候选物种使用进行约基因组 50× 覆盖度的 Illumina 测序(由临近物种的基因组大小计算测序量),仅需要花费很少,即可以对基因组的大小、重复序列含量和杂合率进行评估,以确定基因组的复杂程度。继而制定相应的测序策略,或决定是否要对目标物种进行测序。评估基因组大小后,有利于确定下一步基因组项目全面开展所需要的测序数据量,预算项目在测序上的花费。

2.2.1 基因组大小估计

K-mer 是指一条字符串中所有可能具有长度为 K 的子串(子序列)。对于一条长度为 L 的序列,所有可能的长度为 K 的子序列数量为 L $ - $ K $ + $ 1。

2.2.2 基因组复杂度估计

由于基因组杂合性、倍性、重复序列等因素,K-mer 频率分布曲线会发生变化,可以据此估计目标基因组的这些信息。

K-mer 深度分布曲线会随着基因组杂合性、倍性、重复序列等因素发生变化。
基因组的杂合性,会使来自杂合区段的 K-mer 深度较纯合区段降低 50%。

一般进行短片段插入库 × 基因组覆盖深度测序,并利用该数据进行字符串分析,估计目标物种基因组的大小、杂合度、倍性和重复序列比例等参数。
K-mer 在生物信息学分析中用途非常广泛,K-mer 除了用于基因组序列拼接外,也用于基因组大小、杂合度、重复序列估计等。

根据基因组的重复序列比例、杂合率、基因组大小及多倍化等指标,可以将基因组分为简单基因组和复杂基因组。

简单基因组:一般为重复序列比例低于 50%、杂合率低于 0.5%,同时基因组大小低于 2Gb 的二倍体植物基因组。

复杂基因组:一般为重复序列比例高于 60%,或者杂合率大于 0.5%,或者基因组大于 2Gb,或者多倍体基因组。

通过 genome survey,获得的基因组概貌信息,制定一个合适的基因组测序策略,对于整个基因组项目的顺利进行将起到关键作用,尤其是对于拥有复杂基因组类型的植物基因组。

3 全基因组测序

3.1 一代

3.2 二代

3.3 三代

第三代测序(third generation sequencing, TGS)

3.3.1 SMRT 测序技术

PacBio 公司开发的单分子实时测序,采用四色荧光标记的 dNTP 和被称为零级波导(zero-mode waveguides, ZMW)的纳米结构对单个 DNA 分子进行测序。

  1. CCS: HiFi reads

https://mp.weixin.qq.com/s/UbvHF3WY-wVxWJ_Nwh1jsg

  1. CLS

3.3.2 纳米孔测序技术

ONT

纳米孔测序技术对于核酸的直接测序避免了扩增带来的偏好性,同时可直接检测出核酸上除 ATCG 之外的信息,如碱基修饰 polyA 等。

4. 原始序列的矫正和质量控制

在获得足够的目标基因组序列之后,并不能马上开始进行基因组组装,因为无论是二代测序还是三代测序技术其本身均存在或多或少的系统偏差,所以需要对原始序列进行质量控制和矫正,以提升基因组拼接输入序列的质量。

  • 二代测序可以根据测序文件中对于每个碱基的质量值标注,去除低质量的读序或碱基,以及测序时引入的接头序列,这就是所谓的质量控制。
    尽管二代测序经过质量控制后碱基准确率可以达到 99.9% 以上,但仍存在部分系统错误,目前比较流行的方法是通过 K-spectrum 算法对二代数据进行进一步矫正。
  • 三代测序与二代测序相比其碱基偏好性没有那么严重,产生的错误更倾向于随机错误,所以通常可以提高测序深度来进行自我矫正,这也是目前三代测序解决原始测序错误率较高问题的最主要策略。当然也有通过二代序列构建 DBG 图对三代序列进行矫正的。

5. 基因组拼装

de novo 组装,组装改善提升,包括拼接延长(scaffolding)、补洞(gap filling)及拼接一致性矫正(polishment)

5.1 基因组序列拼装算法

基因组从头拼装方法目前主要有两个基础算法:OLC 和 DBG,两者均遵循 Lander-Waterman 模型。在该模型中,如果两条读序重叠并且重叠长度大于截止值(cut-off value),则应将两个读序合并为 contig(重叠群,连续序列),然后重复此过程,直到无法合成任何读序或重叠群为止。两种基础算法适用于不同读序长度和测序深度的序列组装,并且在计算效率上有显著差异。

新的算法也不断被提出,如重复图拼接算法。

基因组的组装质量不仅取决于测序技术,如读取长度和测序错误率,还取决于重复序列比例、杂合率等基因组特征。

5.1.1 OLC (overlap-layout-consensus)

适用于第一代或第三代测序技术获得的长读序或一些大片段的拼接,但不适用于第二代测序技术获得的短读序(长度为 100 ~ 150 bp)。

主要分为 3 个步骤:

  1. 找读序可能的重叠区域(overlap);
  2. 通过重叠区域拼接出序列片段(layout);
  3. 基于片段关系进行连接,经错误矫正后获得最终序列。

5.1.2 DBG (de Bruijin graph):德布鲁因图拼接算法

DBG 和 OLC 方法类似,不同之处在于:OLC 的节点是读序(序列长度不均匀),而 DBG 的节点是 k-mer 序列。DBG 适合处理大量具有重叠关系的短读序。

DBG 也可以用于基于三代长读序的基因组从头拼装,如 2019 年,阮钰和李恒发表了模糊布鲁因图拼接算法及其软件 wtdbg。

5.1.3 Flye:重复图(repeat graph)拼接算法

针对基因组序列中存在大量重复序列的事实和 DBG 对重复序列拼接的短板,Flye 算法解决了重复序列拼接的难题。

几个关键过程:

  1. 随机基因组拼接序列(disjointig)的构建,由于重复序列的存在,导致随机的基因组片段连接,这些连接也许是错误的(随机连接导致);
  2. 基于“disjointig”序列构建其近似重复图;
  3. 基于少量的重复序列之间的差异,区分重复序列与非重复序列之间的连接关系,确定重复图中每条重复序列路径,构建完整重复图。

5.2 de novo 拼装

5.3 改善提升

补洞(gapfilling)

延长(scaffolding)

矫正(polishment)

5.4 具体

完成对原始数据的质量控制和矫正后,可以根据数据情况来针对性地进行组装软件或者策略的选择。以二代测序数据为主的拼接软件一般是基于 DBG 算法,而以三代测序为主的拼接软件一般是基于 OLC 算法。根据不同基因组项目的测序情况具体可以分为以下几种情况:

  1. 仅有足够的二代测序数据(深度 > 150×)
    一般同时具有PE(深度 > 100×)和 MP(深度 > 50×),可以选择 SOAPdenovo2、ALLPATHS-LG、ABySS 等软件,完成初步组装后还通过 GapFiller、SSPACE 等软件对初步组装通过迭代比对寻找可以填补的 GAP 和序列之间的连接关系,以提升基因组组装指标。
  2. 具有足够的二代数据(深度 > 150×)和较少的三代数据(深度 < 30×)
    可以在第 1 步的基础上通过 PBJelly、SSPACE-LR、LINKS 等软件,利用三代数据对第1步获得的组装进行进一步提升和组装,完成后需要使用 Pilon 软件结合二代数据对组装进行矫正和打磨。
  3. 具有足够的二代数据(深度 > 150×)和一定的三代数据(深度 > 30×)
    可以使用混合组装软件如 MaSuRCA、HybridSPAdes、PBcR、DBG2OLC、Unicycler 等进行组装,完成组装后可以通过二代提升软件 GapFiller、SSPACE 等,以及三代提升软件 PBJelly、SSPACE-LR、LINKS 等对初始组装共同进行提升,值得注意的是每使用一次三代数据都最好使用软件 Pilon 进行一次矫正。
  4. 具有足够的三代数据(深度 > 80×)
    可以使用三代测序组装软件,目前比较流行的有 Canu、Flye、Falcon、wtdbg2、miniasm、MECAT、NECAT、NextDenovo 等,值得注意的是其中 NECAT 和 NextDenovo 是针对 Nanopore 测序数据进行开发的组装软件,完成组装后需要利用三代数据 Arrow(PacBio数据)和 Medaka(Nanopore数据)进行矫正,建议重复两次以上,最后如果有二代测序建议再利用 Pilon 进行一次矫正。

6. 染色体水平组装

上述基因组拼接只是到 scaffold 水平,需要通过一些额外的数据,进行染色体水平的组装。这项工作通常称为准染色体重建(pseudo-chromosomes reconstruction),其中“准”这个词代表的是基因组组装上仍然存在许多不确定的地方,需要各种可能的证据来进行校验。

6.1 遗传图谱

6.2 Hi-C

6.3 其他

光学图谱技术(BioNano Genomics)

Chicago 技术(Dovetails Genomics)

Linked-reads 技术(10× Genomics)

7. 基因组组装质量评估

  • contig N50 和 scaffold N50,这类指标在错误较少的情况下,越高说明基因组拼接的连续性越好。
  • 校正后的测序数据比对到基因组拼接序列上的比例。通过校正后的二代或三代测序数据与基因组进行比对,通过比对有效比例和覆盖度来评估拼接基因组和数据的一致性,通常比对上的比例越高,覆盖度约均匀,组装效果越好。
  • 利用转录本或重复序列元件(如 LTR)等基因水平序列进行评估。例如,基于 LTR 完整度进行评估的方法——LAI,基于 LTR 重复序列拼接的完整程度,LAI 给出一个评价指数,LAI 指数越高拼接完整性越好。
  • 通过 BioNano 光学图谱、BAC 等克隆序列、Hi-C 及遗传图谱等各种类型的独立数据进行一致性比较,从多个维度来验证基因组拼接的准确性。通常一致性越高,基因组拼接越准确。