66a265a415c1c2abae967794ea9278b5.jpg

一:为什么要研究三维基因组?

1.1 一维的染色体的情况
我们首先来看一个图 它展示了人1号到XY染色体的基因结构,包括插入,删失,倒位异位等情况。很直观,但是也展示了人染色体的复杂程度!面对如此复杂的基因组情况,如何去下手分析?
b5e59a757e607b505e3d38e835092377.jpg
图一:人类染色质的情况从 chr1-XY

1.2:染色质折叠的过程
从一级结构DNA 到二级结构 核小体(还可以形成30nm纤丝)到三级结构(染色质 染色体)
6653bbf787343d52acbcdcf8dab36634.jpg
图二:染色质的空间折叠 Ou H D et al Science, 2017

我们来思考一个问题,染色质的序列和染色质的构象有什么联系or区别?

1.3:如何去研究3D基因组?
3D基因组主要依据染色体构象捕获技术(Capturing Chromosome Conformation),用于解释细胞内DNA物理长度与细胞核直径之间及功能复杂性之间的矛盾,大致的实验技术主要包括:

  • 3C (Chromatin Conformation Capture),one-to-one:通过基因座特异性引物PCR检测单个连接产物,大多数3C通常仅能分析几十到几百Kb染色质之间的相互作用。
  • 4C (Circularized Chromatin Conformation Capture),one-to-all:使用反向PCR产生单基因座的全基因组相互作用图,研究已知DNA片段(bait)与全基因组未知DNA片段之间的互作。
  • 5C (Chromatin Conformation Capture Carbon Copy),many-to-many:基于3C的基本原理,结合连接介导的扩增 (ligation-mediated amplification,LMA)来增加3C检测的通量,识别两组大量位点之间并行的数百万个相互作用。
  • Hi-C(High-throughput chromosome conformation capture),all-to-all:用于对整个基因组所有位点间进行无偏差的作用分析的3C衍生技术。
  • ATAC-Seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing)及结合免疫沉淀相关技术包含ChIP-loop(chromatin immunoprecipitation-loop assay)、ChIA-PET(chromatin interaction analysis by paired-end tag sequencing)等。

Hi-C技术能够应用的方面包括辅助基因组组装、 研究基因间空间调控机制/构建基因组三维结构模型 、构建基因组单体型图谱。而ATAC-Seq能够探究染色质的开放性、开放区域定位、TF footprint、核小体定位、调控元件定位。两者都是通过特定的手段获得互作片段,通过二代测序获得高通量数据。Hi-C着重于互作矩阵的分析及图谱构建,而ATAC-Seq着重于对开放片段的分布及功能分析。

二:各个C的历史

2.1 3C

2002年,Job Dekker等在Science上发表文章 Capturing Chromosome Conformation (染色质捕获技术,简称3C)。
用的材料是酵母,Eco R1限制性内切酶。每一个都是黏性末端,可以连接起来。去掉蛋白后,然后再进行PCR。如果这两个染色质的构象比较接近的话是可以通过PCR验证出来的,比如说图五。如果进行交联之后,然后可以发现位置比较靠近的地方是可以P出来条带的,说明它们的位置比较近。(PS:这个实验设计的比较巧妙的地方是:它有primer设计的是同向的,正常道理P不出条带,但是可以P出来,说明位置靠的近。正好可以头对头P出来,而且5和6的位置靠的近。6和13的位置靠的比较远,本文章后续还有一系列的公式推导,有兴趣的话可以看看)。
acda43b3f97dd952147aaf4dae2313a3.jpg
图三:3C文章 Job Dekker et al Science 2002

b4e55659d0a20efc1603969f7863bb79.jpg
图四:原理图 Job Dekker et al Science 2002

e0c1e64a6f30b06eab2c2a0da367cd51.jpg
图五:ligase验证 Job Dekker et al Science 2002

缺点:一对一,每设计一对引物只能涉及到单点的interaction。通量太低了。

2.2 4C

之前说过3C技术是2002年的发表产物,4C技术诞生于2006年。Chromosome Conformation Capture on Chip (4C)
c198f689c9c81bcf58b105132df2df21.jpg
图六 4C技术文章 Simonis M et al Nature Genetics, 2006

首先也是用甲醛进行交联,然后再用限制性内切酶进行酶切 用的是两种限制性内切酶 一个是 HindIII 另是个DpnII,切完了之后可以发现一种D-H-D的模式,之后再进行连接就可以成环。

红色的序列是知道的,但是蓝色的序列是我们未知的区域。(这个是基于2003年4月人类基因组计划完成了,那么我们就可以选择已知的序列进行验证了)。

红色的序列可以设计primer,然后对这个红-蓝-红进行测序,然后再回帖到基因组上,我们就可以知道哪一个部分和红色的有相互作用。
a880685c4a04290b6fe9755a50030963.jpg
图七 4C技术路线图 Simonis M et al Nature Genetics, 2006

优点:一对多,可以知道一个点对于多个位点的相互距离,可以用于后续的验证。只是06年用的是芯片测序,现在可以直接上二代测序。

2.3 5C

Chromosome Conformation Capture Carbon Copy (5C)
它可以检测若干点对若干点的相互作用,它已经是现在的技术所淘汰了。
cd17f32c3cb9776aeae2dee8fda5a3b4.jpg
图八 5c技术图 Dostie J et al Reinhard bendix 2006
这个技术是基于3C的基本原理,结合连接介导的扩增 (ligation-mediated amplification,LMA)来增加3C检测的通量。以3C酶切连接文库为模板 ,在3C引物端加上通用接头(例如T7、T3),例如在正向引物(bait)的5’端加上T7接头,在反向引物的3’端加上T3接头,若两个推测片段存在相互连接,由于连接酶介导的连接作用的性质,只有连接上的片段才有扩增。这样,利用通用引物T7、T3进行PCR,而后将产物进行高通量测序即可实现高通量的3C实验。[5]

2.4 Hi-C&A B Compartment

HiC的文章是发表于2009年,这个技术的革新突破是源于2006年illumina公司的测序成功上市推广。可以解决全基因组所有对所有的相互作用的一个探究!

下图放的是09年的原文的版本,现在用的HiC的protocol 是14年的改进版本,同样是说通过甲醛可以把位置距离靠的比较近的DNA链连在了一起。之后,用限制性内切酶进行酶切,酶切完了之后进行补平(在T的位置加上了biotein的标签),补平完了之后进行连接。然后去掉蛋白质进行超声破碎和打断,然后可以可以用抗体把带有biotein标签的DNA进行捕获,然后进行双端测序!再把基因A B回帖回去,展示其相互位置。

(ps:为什么要加Biotein标签呢?因为在后期的时候形成的 DNA loop会被打断,会产生 黄色 蓝色 黄蓝色三种颜色代表的DNA, 那么我们需要的是黄蓝色的DNA,这种DNA被biotein特异性标记,后续纯化下来的,就是我们想要的目的片段。)

cc63dc115a50726e7291ff5b65e18cfc.jpg
图九:Hic 实验流程图 Lieberman-Aiden E et al science 2009

那么我们再来看一个3D基因组领域最常见的热图
cbf6bfc9f57095fb9033236252c3f88f.jpg
图十:Hic 的热图展示及重复结果 Lieberman-Aiden E et al science 2009

这张图B分别代表的是 用HindIII 酶切之后的染色体的相互作用的图,横 纵坐标是14号染色体的结构位置,以1M为一个小格子单位,C图是代表了一个生物学重复,D图是用另一个限制性内切酶做出来的结果。(这里14号染色体断臂的结构没有显示出来,只是画了一部分)而且这个图展示的是Cis-interaction的结果(什么是Cis interaction?它指的是双端测序都map到一个染色体上的情况,每一个小格子里会统计reads map到里面的多少)
红的颜色越深代表的他们之间测到的reads越多。

从以上的图我们可以看到:
1:热图是对称的(所以一般看的时候会看到一个三角形的热图)
2:热图是有若干个分区的,每个分区都有强和弱的分界线

然后呢?

作者想去进一步去探寻其中的规律,首先它先算出来了,观察值和期望值的比值。然后根据观察值和期望值的比值做了另一个热图。
(PS:如何去看这个图?首先来了解一下 什么观察值?什么是期望值?观察值就是图十中的热图原始数据,在后续的计算中,肯定是需要对观察值进行一定的数值校正,那么校正后的值就是期望值。然后用观察值/期望值,如果这个算出来的结果是大于1,那么用红色标注一下,反之用蓝色标注小块。)
cfcde4cfd2913eed6dfe16218e25c896.jpg
图十一:obs/exp的值 Lieberman-Aiden E et al science 2009

然后再对其做了一个相关系数的计算,如果这两个区域靠的比较近,得到的结果就会显著相关。
ed4df6168f86a83516c61dd6481e8e17.jpg
图十二, 相关性系数计算矩阵 Lieberman-Aiden E et al science 2009

然后是不是C图比B图看的要更清楚了?
这里的分析出来的结果,其实就已经是主成分(PCA)分析的套路前两步,第一步归一化,第二步求协方差(这里的相关系数和协方差得到效果一样,正的协方差表达了正相关性,负的协方差表达了负相关性。)
那么接下来就是要去求主成分,第一主成分,第二主成分。

主成分为正的区域,我们成为A compartment ;主成分为负的区域,我们称为B compartment。

接下来我们来看一个图
91eea9e011907756c9a7a2051ea38b83.jpg
图十三:chr14 的分析图 Lieberman-Aiden E et al science 2009

这个图,上面半部分的几行(从上到下)分别是:
coverage 覆盖度 (对chr14进行画bin,然后对每个bin里的reads进行统计,柱子越高代表统计到的reads越多)
genes 基因数(每个bin里面的基因数目多少也用柱状来表示)
H3K36me3 (H3组蛋白第36赖氨酸三甲基化修饰,代表的是活跃的组蛋白修饰)
H3K27me3 (H3组蛋白第27赖氨酸三甲基化修饰,代表的抑制的组蛋白修饰)
DNAseI (DNA酶切割活性情况,如果柱子的图越高,说明可以被切割的DNA越多,染色质是趋于开放状态的)
Eig (主成分分析正负的情况,上面是正的(A compartment),下面是负的(B compartment))
这个图的下面那部分是chr14的相关系数图,灰色区域代表的是没有匹配上区域。(暂时不关注)

当对应的是A compartment的时候,对应的DNA密度高,基因也多,而且相关组蛋白修饰也表示转录活跃。反之 B compartment的信号低。

当基因密度高,转录活性和组蛋白修饰高的时候。是代表转录和染色体信号越松散越活越。反之越不活跃。

2.5 TAD(topological associated domains)

在3D基因组领域内另一个比较重要的概念TAD(topological associated domains )是2012年提出,这篇工作发表在nature上。它的长度大概是1M以下,300Kb以上。并且他们通过这个TAD结构,发现了在边界区域,CTCF ,管家基因,转座子等有富集。并且证明了一定的生物学功能。
957b213ad3a6e00e718f7d0e801dc91c.jpg
图十四 关于TAD的nature 文章

bedd7bda6da4a500eb991831f0b813a2.jpg
图十五 Fig1 通过染色质的相互来发现TAD

从上往下看:
domain 首先把之前得到的正方形的矩阵按对角线取一半,然后再倒过来。我们就可以看到很多的三角形,通过一定的算法,把每个三角形的边界计算出。
DI directionality index 方向性指数,用于量化基因组区域的上游或下游相互作用偏差的程度,发现在边界区的偏差很大
HMM stats 使用基于方向性指数(DI)的隐马尔可夫模型(HMM)来识别偏向的“状态”,从而推断出基因组中拓扑结构域的位置
CTCF ChIP 数据,用CTCF抗体拉的
H3K4me3 ChIP 数据,用H3K4me3抗体拉的
RNA POl III ChIP 数据,用RNA POl III抗体拉的
p300 ChIP 数据,用p300抗体拉的
H3K4 me1ChIP 数据,用H3K4 me1抗体拉的
基因分布 列出来基因的分布及名字

发现:在TAD(红色三角形)的内部和边缘, 信号强度完全不一样。
在每个三角形的边界上CTCF的信号比较强,H3K4me3信号强。说明它们的结构比较致密。
然后进一步去的看这个boundary的富集情况。
3cb16e9a4688a95c28bb013d2d64d8ca.jpg
图十六 人的细胞repeat
c50984bad5decb835674799a31191700.jpg
图十七 CTCF 富集情况

说明在染色质的边界处的CTCF是非常富集的,CTCF有助于染色质的折叠,且有可能和绝缘子有关。

2.6 trans interaction

有没有情况说,在双端测序的结果匹配到不同染色体上呢?(一条reads匹配到了一个染色体,另一个reads匹配到了另一个染色体。完全有可能)
我们来看A图,横坐标代表的是距离,纵坐标代表的是他们之间的靠近情况,如果线越高实线代表的1号染色体的相互作用的情况,绿色的虚线是染色体1-10号之间的相互作用的情况。红色的虚线是染色体1-21之间的互作情况,灰色的是1号染色体和其他染色体之间的情况。
B图,我们可以看到不同染色体之间的互作情况,中间的对角线代表自己和自己的相互作用用灰色代替了(让其他染色体之间的相互作用看的清楚一些)
a891501e546911ff2751ce721323b081.jpg
图十八 染色质的territory 情况

我们可以得出什么结论? 1 :染色体自己和自己的结合是紧密的。和其他染色体的相互作用弱
2:小的染色体的之间的相互作用强一些,除了18号染色体以外,它的位置是在细胞核的边缘,不在细胞核的中心。


三:summary

用一张图去总结:
7020d859fc44dd4aa588923399c883aa.jpg
图十九 3D基因组技术发展历史 Mora et al.2015


Ref:

  • 1:Tuzun, E., Sharp, A.J., Bailey, J.A., Kaul, R., Morrison, V.A., Pertz, L.M., Haugen, E., Hayden, H., Albertson, D., Pinkel, D., et al. 2005. Fine-scale structural variation of the human genome. Nat. Genet. 37: 727-732.
  • 2:Ou H D , Phan, Sébastien, Deerinck T J , et al. ChromEMT: Visualizing 3D chromatin structure and compaction in interphase and mitotic cells[J]. Science, 2017, 357(6349):eaag0025.
  • 3:Simonis M . Simonis, M. et al. Nuclear organization of active and inactive chromatin domains uncovered by chromosome conformation capture-on-chip (4C). Nat. Genet. 38, 1348-1354[J]. Nature Genetics, 2006, 38(11):1348-1354.
  • 4:Dostie J , Richmond T A , Arnaout R A , et al. Chromosome Conformation Capture Carbon Copy (5C): a massively parallel solution for mapping interactions between genomic elements[M]// An intellectual portrait /. Reinhard bendix, 2006.
  • 5:http://yulijia.net/cn/%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF/2016/04/15/3C-4C-5C-HiC-ChIAPET-and-ChIPloop.html
  • 6:Lieberman-Aiden E, van Berkum NL, Williams L, Imakaev M, Ragoczy T, Telling A, Amit I, Lajoie BR, Sabo PJ, Dorschner MO, Sandstrom R, Bernstein B, Bender MA, Groudine M, Gnirke A, Stamatoyannopoulos J, Mirny LA, Lander ES, Dekker J (2009) Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science 326: 289–293
  • 7:Dixon J R , Selvaraj S , Yue F , et al. Topological domains in mammalian genomes identified by analysis of chromatin interactions[J]. Nature, 2012, 485(7398):376-380.