拟南芥(Arabidopsis thaliana)在植物研究中具有重要地位,2000 年其(Columbia (Col-0) accession)基因组的发布是生物学领域的一个重要里程碑。这种植物的基因组小(120Mb),主要是自交繁殖(纯合),生命周期短。自然界中的拟南芥分离株分布于北半球的大部分地区(分布广泛),在生理学、形态学和生活史特征(如代谢物含量、开花和发芽行为、光和应激反应以及抗病性)方面表现出巨大的表型变异。种种优势使其成为植物研究的理想材料。

针对拟南芥也有一个重要的 Project,就是 1001 Genomes Project。一起来简单了解一下。

1001 Genomes Project

1001 基因组计划(1001 Genomes Projecthttps://1001genomes.org)于 2008 年初启动,旨在发现参考植物拟南芥(Arabidopsis thaliana)至少 1001 个 品系(分离株(accession))的全基因组序列变异。该研究由 Detlef Weigel(马克斯·普朗克研究所)与 Joe Ecker(索尔克研究所)等人合作推动(https://1001genomes.org/data-providers.html)(了解这些大牛也很重要)。

项目的第一个主要阶段在 2016 年完成,并发布了对 1135 个基因组的详细分析,主要出版物为:

  • 1,135 Genomes Reveal the Global Pattern of Polymorphism in Arabidopsis thaliana. Cell. 2016 Jul 14;166(2):481-491. doi: 10.1016/j.cell.2016.05.063
  • Epigenomic Diversity in a Global Collection of Arabidopsis thaliana Accessions. Cell. 2016 Jul 14;166(2):492-505. doi: 10.1016/j.cell.2016.06.044

Project | 1001 Genomes Project - 图1

Origins of the 1001 Genomes Accessions

1001 基因组计划的一个实际动机是为了进行全基因组关联研究(GWAS),为该模式植物的数百个分离株生成了表型https://arapheno.1001genomes.org/)、基因组转录组http://signal.salk.edu/1001.php)和甲基化组数据。(原始重测序数据:https://trace.ncbi.nlm.nih.gov/Traces/?view=study&acc=SRP056687

这些数据集的可用性为通过整合不同类型的数据,利用机器学习方法预测复杂性状提供了机会。通过解释这些机器学习模型,可以识别出对复杂性状进行预测时重要的基因特征,从而深入了解复杂性状的机制基础,超越全基因组关联研究(GWAS)所能揭示的少数显著数量性状基因位点(QTLs)。

1001 基因组联盟中的拟南芥个体资源可以作为种子分发,所有这些种子都可以在拟南芥生物资源中心(Arabidopsis Biological Resource Center,ABRChttps://abrc.osu.edu/)获得,基因组序列也可以从网站下载(https://1001genomes.org/data-center.html)。

1001G+ Project

经济上可行的二代测序方法实际上并不能产生完整的基因组序列——它们产生的是大量非常短的序列片段,必须将这些片段与参考基因组进行比对才能识别变异。因此,1001 基因组计划仅报告了简单的变异,且结果不可避免地带有参考基因组中存在或缺失内容的偏差。大型或复杂的结构变异,以及复杂变异中的简单变异通常完全被忽略。为了解决这个问题,最近开始了第二个主要阶段,即 1001G+(https://1001genomes.org/projects/1001G+/)项目。已经开始组装来自不同拟南芥品系的基因组,目标是用转录组和表观基因组信息对它们进行注释,并开发工具以使这些结果向社区开放(https://1001genomes.org/data/1001G+/)。(不知道项目会不会顺利完成,会不会有整理得很好的数据产生。)

尽管已经拥有了如此庞大的 Project,但对于拟南芥基因组的广泛测序和研究仍然层出不穷:

  • A Species-Wide Inventory of NLR Genes and Alleles in Arabidopsis thaliana. Cell. 2019 Aug 22;178(5):1260-1272.e14. doi: 10.1016/j.cell.2019.07.038
  • Chromosome-level assemblies of multiple Arabidopsis genomes reveal hotspots of rearrangements with altered evolutionary dynamics. Nat Commun. 2020 Feb 20;11(1):989. doi: 10.1038/s41467-020-14779-y
  • The pan-genome and local adaptation of Arabidopsis thaliana. Nat Commun. 2023 Oct 6;14(1):6259. doi: 10.1038/s41467-023-42029-4
  • A pan-genome of 69 Arabidopsis thaliana accessions reveals a conserved genome structure throughout the global species range. Nat Genet. 2024 May;56(5):982-991. doi: 10.1038/s41588-024-01715-9
  • ……

参考

  1. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature. 2000 Dec 14;408(6814):796-815. doi: 10.1038/35048692
  2. https://1001genomes.org/
  3. 两篇Cell文章:1001基因组与表观基因组计划重大成果
  4. 综述| 中国农科院基因组所:植物基因组测序与群体基因组学:现状与展望(国人佳作)
  5. The Plant Cell ∣ 拟南芥基因组学发展20年综述
  6. Prediction of plant complex traits via integration of multi-omics data. Nat Commun. 2024 Aug 10;15(1):6856. doi: 10.1038/s41467-024-50701-6

我的感想:在植物基因组学研究中,拥有一个研究群体是非常重要的。该计划已经对很多拟南芥进行测序,而且种子可购买。那是否可以自己研究新的表型性状、定位控制基因、进行功能研究?或者进行其他类型的广泛测序?