泛基因组介绍
在动植物群体中广泛开展的重测序研究通常以某一个体基因组作为参考,通过对群体中大量个体相对于参考基因组存在的遗传变异来进行后续的群体遗传学研究。常规的群体基因组重测序研究存在一个问题,即单一参考基因组无法完整反映物种遗传多样性、无法准确检测大尺度结构变异等问题。为了克服常规群体重测序研究中存在的这种问题,研究人员引入了泛基因组的概念。
一个物种的基因组总和被称为泛基因组(pan-genome)。泛基因组基因包括核心基因(core gene)和非必需基因(dispensable gene)。
泛基因组分析对于一个物种的意义在于:
- 确定其核心基因组大小,即该物种所有个体都包含的基因或基因家族数量;
- 确定其泛基因组大小,即该物种包含的所有基因或基因家族数量;
- 确定增加任何一个新个体,将为该物种泛基因组增加多少新基因。
其中,核心基因组由所有个体都存在的基因组成,一般与物种生物学功能和主要表型特征相关,反映了物种的稳定性;非必需基因组由仅在单个个体或部分个体中存在的基因组成,一般对特定环境的适应性或特有的生物学特征相关,反应了物种的特性。
泛基因组分析有助于理解植物物种的特征,同时泛基因组图谱提供的基因 PAV 变异或基因复制等复杂基因组变异,有助于解析作物表型和农艺性状的多样性。
- 选择不同亚种材料进行泛基因组测序,可以研究物种的起源与演化等重要生物学问题;
- 选择野生种和栽培种等不同特性的种质资源进行泛基因组测序,可以发掘重要性状相关的基因资源,为科学育种提供指导;
- 选择不同生态地理类型的种质资源进行泛基因组测序,可以开展物种的适应性进化、外来物种入侵等热门科学问题。
泛基因组分析流程
泛基因组研究通常包括:
- 泛基因组组装
- 基因组变异分析
- 核心基因/非必需基因分析
泛基因组组装
泛基因组组装通常包括三种策略:
- 迭代组装
- 全基因组从头组装
- 图基因组
迭代组装
迭代组装可以称为迭代联配-组装策略(iterative mapping and assembly)。迭代组装以一个参考基因组为基础,把其他个体的序列联配到参考基因组,提取未联配序列,将未联配序列逐步加入到参考基因组中,经过不断的迭代完成泛基因组的构建。根据测序深度的不同,迭代组装可以分 contig 水平的迭代组装和读序水平的迭代组装。
当个体的测序深度足够时,可以采用contig水平的迭代组装:
- 将每个个体的测序数据使用SOAPdenovo2等软件进行从头拼接,去除拼接结果中较短的(<500bp)序列;
- 使用MUMmer软件的nucmer等软件将拼接得到的contig联配到参考基因组上,根据比对长度、序列一致性等标准去除不可靠的联配;
- 根据最终的联配结果提取未能比对到参考基因组上的contig作为候选contig,利用BLASTN将候选contig与GenBank核酸数据库进行比对来进一步过滤不相关的contig;
- 候选contig经过过滤得到最终用于构建泛基因组的contig数据集。
利用上述流程获得所有个体用于构建泛基因组的contig并进行合并,使用CD-HIT等工具去除contig之间的冗余,去冗余后的contig被加入到参考基因组中,构建最终的泛基因组。
当研究中个体的测序深度较低时,可以采用读序水平的迭代组装:依此将各个材料的读序数据使用Bowtie2等软件直接联配到参考基因组,提取未必对的读序数据进行从头拼接,并将新拼接的contig加入到参考基因组中,对参考基因组进行更新。当所有个体均迭代加入参考基因组后就完成了泛基因组的构建。
全基因组从头组装
泛基因组的全基因组从头组装与各个物种的参考基因组组装策略类似。这种方法将研究中各个体的基因组独立拼装、组装成相对完整的基因组。然后通过将组装得到的基因组与参考基因组完成全基因组的共线性来比较进行基因组变异的检测,最终以参考基因组为基础进行泛基因组的构建。
全基因组从头组装的策略需要根据测序方式等的差异来确定。一个全基因组从头组装的研究策略可归纳为:
- 采用 PacBio 等测序获得长测序,使用 Canu 等进行 contig 的组装;
- 使用高质量的 Illumina HiSeq 测序数据对组装的 contig 进行多轮校正;
- 利用 Hi-C 等基因组组装新技术进行染色体水平的组装等。
图基因组
上述两种策略获得的泛基因组在序列上是线性的,这线性结构很难完整呈现一个群体中所有的基因组变异。相比于前两种策略,图基因组可以完整呈现群体中所有的基因组变异,越来越多的泛基因组研究开始尝试构建图基因组。一个图基因组通常是以个体全基因组从头组装为基础,利用 Mummer 等进行基因组共线性比较,基因基因组共线性的寄过计划那行基因组变异的检测,最后利用 vg toolkit 等软件进行基因组与变异信息的整合并构建图基因组。
基因组变异分析
泛基因组研究中基因组变异分析与泛基因组构建方式密切相关。
采用迭代组装的方式构建泛基因组后,将泛基因组作为参考基因组,采用与群体重测序相同的方式进行 SNP、Indel 等基因组变异的检测。
采用全基因组从头组装的粗略构建泛基因组时,基因组变异的检测主要基于全基因组共线性分析的结果展开。先以参考基因组为参考,利用MUMmer软件nucmer工具对从头组装获得的多个基因组分别与参考基因组进行共线性分析,使用delta-filter工具提取一一对应的共线性区段(one-to-one alignment block)。再使用show-snps工具进行SNP和Indel(<100bp)的鉴定。结构变异的检测同样需要以nucmer工具分析得到的基因组共线性结果为基础。利用SVMU、MUM&Co等进行插入、缺失、易位、倒位等的检测。
核心基因/非必需基因分析
核心基因/非必需基因(core/dispensable gene)的分析以从头组装获得的基因组为基础,首先需要利用从头预测、同源比对等方法对各个基因组进行蛋白质编码基因结构的注释,再利用从头 OrthoFinder 等进行基因家族聚类分析。根据基因家族聚类分析的结果,如果一个基因家族中的基因分布在所有个体中,这个基因家族的基因被定义为核心基因;再如果一个基因家族中的基因只存在一小部分个体中,那么这个基因家族的基因被定义为非必需基因。
PAV 分析
存在/缺失变异分析(presence/absence variation, PAV)包括编码基因的 PAV 分析和基因组变异的 PAV 分析。
编码基因的 PAV 分析
编码基因的 PAV 分析是研究不同个体中基因的存在/缺失的变异,可以以从头组装获得的多个基因组为基础,通过对各个基因组独立进行编码基因结构的注释,根据不同个体间编码基因的比较来进行存在/缺失分类。除此之外,还可以通过将每个个体测序数据联配到泛基因组上,结合泛基因组的编码基因信息来确定个体中基因的存在/缺失分析。
基因组变异 PAV 分析
基因组变异 PAV 分析是研究不同个体基因组上结构变异的存在/缺失的变异,以全基因组从头组装后鉴定得到的结构变异为基础,一般将结构变异中的插入、缺失鉴定为 PAV,此外,个体之间不存在共线性的区间同样也会被认定为 PAV 区间。
参考
《植物基因组学》樊龙江
《生物信息学》樊龙江
Pangenomics Comes of Age: From Bacteria to Plant and Animal Applications
Plant pan-genomics: recent advances, new challenges, and roads ahead
公众号 | 小杜的生信笔记 | 泛基因组(Pan-genome)