介绍

Promoter Capture Hi-C

常规 Hi-C 高通量测序是全基因组范围内探究所有染色体内和染色体间的互作,其覆盖范围非常广泛,但随之带来的问题是分辨率受限,如果要对某些特定位点的互作进行深度研究,则需要很高的测序深度,一是增加了测序成本,二是对计算资源和数据分析能力提出了更高的要求,一定程度限制了其使用范围。通过 Hi-C 获得的数据,除了 campartment 和 TAD 结构,人们通常更关注 loop 染色质环,而在这些 loop 所连接的互作中,对基因表达起直接调控作用的则是与 Promoter 存在互作的 loop,因此为了更加精确的富集与 promoter 发生互作的 loop,人们开发出了 Promoter Capture Hi-C 技术。该技术通过在常规 Hi-C 建库的基础上,增加靶向 Promoter 的探针杂交来实现富集效果。所需要的测序量比 Hi-C 大幅减少,且获得的数据中比 Hi-C 更加精确的捕获到与 Promoter 存在互作的信息。Promoter Capture Hi-C 实现了特定位点互作片段的高精度测序,扩大了 Hi-C 技术的适用范围。

PCHi-C 可以鉴定出与启动子存在显著互作的潜在顺势调控元件(CRE)。

实验原理

PCHi-C 实验可以分为两大部分:

第一部分与常规 Hi-C 基本一样,也是通过甲醛交联、裂解灭活、酶切补平标记生物素、连接、解交联、提取连接产物、二代文库构建。

第二部分则与常规 Hi-C 不同,将 Hi-C 文库产物再使用探针进行杂交捕获,对捕获后的产物再构建成最终的 Capture Hi-C 文库。

数据分析

PCHi-C 的分析流程包括

  • 数据的准备
  • 参考基因组索引
  • fastq 质控去除接头
  • 数据比对过滤及捕获效率检测
  • loops 识别
  • loops 启动子注释
  • 结果可视化

基础知识 | Capture Hi-C - 图1

参考基因组索引

质控过滤

PCHi-C 的数据过滤与其他二代测序数据的过滤方法一致,可以使用 trimmomatic 首先清理掉 raw reads 两端低质量的碱基,获取 clean reads 后,再采用 fastqc 评估 clean reads 的测序质量,再采用 seqkit 工具来补充评估信息即可。

比对

PCHi-C 文库片段与Hi-C 一致,同样是两个或更多非连续位点的 DNA 组成的嵌合片段,因此 Hi-C PE reads 通常形成嵌合,嵌合 reads 会影响数据比对率。

HiCUP 软件提高数据比对的效率,并且 HiCUP 和 CHiCAGO 为同一团队开发,两个工具可以无缝衔接。

例如 HiCUP 除了比对外,还提供了 get_captured_reads 工具,可以计算捕获效率。因此,目前几乎所有采用 CHiCAGO 进行 PCHi-C 分析的文章均采用了 HiCUP 进行比对。测序数据比对通常是 CPU 密集型的计算,建议线程数设置高一些。

HiCUP 比对运行时间通常比较久,在整个流程中通常会占用一半以上的时间。

  1. ref=genome.fa
  2. samtools faidx ${ref}
  3. hicup_digester --re1 A^AGCTT,HindIII --genome ref ${ref}

HiCUP 内部调用 bowtie2,因此需要先采用 bowtie-build 对基因组构建索引。

同时采用 HiCUP 自带的 hicup_digester 构建酶切位点,运行完生成酶切信息文件,其中各列间 TAB 分隔:

  1. 染色体编号

因为 PCHi-C 仅捕获基因启动子区,所以只有少数酶切片段上有 RNA bait。baitmap 文件记录着 RNA bait 在哪个酶切片段上。

CHiCAGO 自开发以来,一直是 PCHi-C 分析的主流工具。CHiCAGO 核心代码为 R 包,它自带有一个 chicagoTools 的整合工具,可以方便得完成 PCHi-C 显著互作检测。

可以采用 chicagoTools 的 makeDesignFiles.py(或 makeDesignFiles3.py)程序完成 CHiCAGO 索引构建。

HiCUP 简单使用

Capture efficiency

Hi-C 和捕获 Hi-C 文库制备过程中会尽可能多得获得有效测序片段,对捕获 Hi-C 而言就是最大化富集 baited 区域,让 PE reads 中至少一端与 baited 限制性酶切片段有 overlap。捕获效率(Capture efficiency)的定义是 baited 片段除以总的有效片段的比值。这个值可以帮助我们评估和优化 PCHi-C 的文库制备,因此在分析时是一个关键的 PCHi-C 数据质控指标。可以采用 HiCUP 自带的 get_captured_reads 脚本来计算捕获效率。

Loop calling

CHiCAGO 包是专门为捕获 Hi-C 显著互作检测开发出来的。它可以解决捕获 Hi-C 的实验偏差,例如不同样本间捕获效率差异等。还可以处理不对称的 Capture Hi-C 互作矩阵,以准确检测出 loops 信息。

可以通过 CHiCAGO score $ \ge $5 筛选出显著互作。

参考