ChIP-seq数据分析 - ChIP-Seq分析小实战（一） - 《三维基因组学学习笔记》

ChIP知识点的梳理
文章研究对象
数据的下载和整理

ChIP知识点的梳理

ChIP属于表观遗传学中的一门技术，我第一次了解表观遗传学是通过一本叫遗传的革命的科普书，但是对于ChIP相关名词并没有很好的理解，再加上之前从未接触过ChIP实验，所以这里首先对ChIP的一些知识点进行了整理，至少让自己能了解相关的名词的含义。

ChIP-Seq是将ChIP(ChromatinImmunoprecipitation)与二代测序技术相结合的技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区域。ChIP也称为结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于修饰组蛋白、转录因子、辅因子以及其他染色质蛋白在染色质上的定位及丰度研究。

组蛋白修饰：
组蛋白的概念：组蛋白是真核生物染色体的基本结构蛋白，是真核生物体细胞染色质中的碱性蛋白质，含精氨酸和赖氨酸等碱性氨基酸特别多，二者加起来约为所有氨基酸残基的1/4。组蛋白是一类小分子碱性蛋白质，有五种类型：H1、H2A、H2B、H3、H4，它们富含带正电荷的碱性氨基酸，能够同DNA中带负电荷的磷酸基团相互作用，因此两者吸附结合在一起，通过这种方式DNA的遗传信息被压缩染色质的概念：染色体在细胞周期的间期时DNA的螺旋结构松散，呈网状或斑块状不定形物，即染色质。染色质是由许多核小体组成的，H2A，H2B，H3和H4各2个分子构成的8聚体是核小体的核心部分，H1的作用是与线形 DNA结合以帮助后者形成高级结构。每个蛋白都有伸出球形的松散折叠的氨基酸链，这就是所谓的组蛋白尾。
我们看到组蛋白H3K4me3这词，表示组蛋白H3肽链上的第四位赖氨酸有三个甲基化，其主要定位在转录活跃基因的启动子CpG岛上，这就告诉我们H3K4me3跟转录激活有关；组蛋白H3K27me3则主要定位在转录抑制的基因上，这就告诉我们H3K27me3跟转录抑制有关。
组蛋白有两种常见修饰：乙酰化和甲基化，那么参与其修饰的酶则是乙酰化酶和甲基化酶，如果再分对修饰是促进还是抑制作用则包括甲基化酶和去甲基化酶、乙酰化酶和去乙酰化酶。一般把添加修饰的叫做writer，把去修饰的叫做eraser，还有一个reader能识别组蛋白上特定的化学修饰所以说这三类因子分别可以实现组蛋白各种修饰的添加、去除和识别，从而调控基因的转录，如：组蛋白中的赖氨酸K（正电荷）被加上甲基化，导致正电荷变少，因此与DNA结合能力减弱，染色质从紧密变成松散，这样转录因子才能结合到DNA中，说明了组蛋白修饰是调控染色质紧密程度的关键因素之一。当然乙酰基的加入，也能改变了组蛋白和DNA结合的能力，有利于基因表达H3K4me3的reader，可以招募相应的writer SETD1对DNA进行甲基化修饰。又如bromo domain（属于reader），含有这类domain的蛋白家族通常能够识别组蛋白上经过修饰的赖氨酸，可以调控基因转录活性。有时组蛋白修饰会吸引reader以及其他蛋白（合作蛋白）在染色体上形成一个复合体，然后再对DNA特定区域进行甲基化修饰，这些修饰又与转录的激活和抑制有关。通常这些是跟甲基化有关？由于每一类组蛋白甲基化都能被高度分化的蛋白质通过赖氨酸-甲基识别？
转录因子：
转录因子的概念：转录因子（transcription factor）是一群能与基因5’端上特定序列专一性结合，从而保证目的基因以特定的强度在特定的时间与空间来表达蛋白质分子转录因子结合位点的概念：转录因子的结合位点（transcription factor binding site，TFBS）是转录因子调节基因表达时，与基因模板链结合的区域。按照常识，转录因子（TF）的结合位点一般应该分布在基因的前端。但是新的研究发现，人的21和22号染色体上，只有22%的转录因子结合位点分布在蛋白编码基因的5’端。
如果我们知道某种转录因子定位在哪些基因的启动子上，我们就可以知道，这个转录因子调控哪些基因表达。而丰度的多少可以提示这种转录因子对不同基因的调控强度。对于一个样品，我们看结合位点所在的区域分布与已知的表观遗传学标记之间的关系；对于多个样品，在不同样品之间进行差异调控的基因（Differentially regulated gene，DRE）分析，得到样品间的差异。
ChIP-Seq的原理是：
1. 通过甲醛将染色质上的DNA和蛋白交联结合在一起
2. 通过超声或酶解的方法将染色质片段化
3. 通过附上抗体的磁珠免疫沉淀靶蛋白
4. 通过加热解除DNA和靶蛋白的交联
5. 通过蛋白酶和RNA酶去除靶蛋白和RNA后，纯化DNA
6. 通过PCA检测目标区域的DAN是否被靶蛋白富集到，然后再进行测序每做一次实验，换一个蛋白，所捕获的序列是不一样的。

ChIP-seq的实验对照：
我们做ChIP-Seq的时候需要使用control（通常使用IgG和input两种control结合）,以去除背景，确保之后的peak分析得到的peak是蛋白特异结合而不是因为甲醛交联或者抗体非特异性结合等情况所产生。

如果实验设计中有Input样本，那么Input和IP样本在前期检测、建库、测序都是平行进行的，但是分析中需要将两个样本的测序数据进行整合分析，得出最终的peak结果，并用于后续分析。
阴性对照：

什么是input：样本经过超声，但是没有进行ChIP，包含样本超声后总DNA，开头进行的电泳，检测超声效果，同时，可以与最后ChIP样本进行比较，判断ChIP的效率（如果用同一引物进行PCR，ChIP组和input组亮度差不多，说明ChIP效率高，样本中所有的目的基因片段都被ChIP下来了，繁殖，说明效率低，实验条件有待改进）
什么是IgG：用普通的IgG做为抗体，理论上不会ChIP下来任何DNA片段，但是由于非特异结合，或者实验过程中，没有发生结合的DNA清除不完全，可能也会出现条带。

阳性对照：
一般用anti-RNA polymerase II抗体，因为RNA polymerase II是通用转录因子，在所有细胞中都能结合基因的核心启动子区，因此理论上，ChIP后PCR会有条带。一般阳性对照不进行测序。

ChIP-seq基本名词解释（摘抄自网上）：

Peak（峰）：由于超声打断的随机性，所以包含某个位的超声片段可能有多条，相互间起止点不同，这些片段被富集，片段间的重叠区域称为“峰”，即DNA与蛋白相互结合的位点。为了剔除假阳性，以没有经过免疫沉淀的超声样品（也就是input）作为负对照。
峰型：不同的DNA结合蛋白在基因组上的分布模式是不同的，具体体现于ChIP-seq峰形的不同。转录因子的峰型：尖锐状（sharp peak，即信号高度集中）；组蛋白标记的峰型：连绵状（broad peak，信号跨越一定范围）；RNA聚合酶II峰型：上述两者兼有。
TFBSs (Transcription factor binding sites)：转录因子结合位点通常是指基因组上，供转录因子结合的5-14bp的DNA序列
motif：转录因子与被调控基因是多对多的关系，一个转录因子可以识别相似的TFBSs ，这些TFBSs通常可以一个module表示，即motif
cis-regulatory module (CRM)：真核生物中，多个TFBSs往往集中于一段短DNA序列 (长度一般不超过200pb)中，该序列称为CRM

文章研究对象

本文主要讲了PRC1(Polycomb repressive complex 1)在小鼠的胚胎干细胞中有两类亚型Cbx7-PRC1和RYBP-PRC1，但是Cbx7和RYBP这两种是不能共存的，尽管两者的全基因组定位在某些gene上交叉，也就是说在基因组上结合在了同一个位置。在分子水平上，Cbx7用于招募Ring1B结合到染色质上，然而RYBP可以增强PRC1的酶活性。RYBP结合的基因，其有着了较低水平的Ring1B和H2AK119ub，但其相比结合Cbx7有较高的表达量。在功能上，RYBP结合的基因主要涉及代谢调节和细胞周期，Cbx7结合的基因主要涉及early-lineage commitment of ESCs。
在做出上述总结前，肯定需要对PRC1进行介绍，其组成看起来非常复杂：
The protein families that constitute the core of PRC1 contain several members:
Cbx (Cbx2, Cbx4, Cbx6, Cbx7, or Cbx8); Ring1A or Ring1B;
PHC (PHC1, PHC2, or PHC3); PCGF (PCGF1, PCGF2, PCGF3,
PCGF4, PCGF5, or PCGF6); and RYBP or YAF2.
接着作者抛出自己这篇文章想要说明的问题：

What is the genome-wide localization of these two types of
PCR1 complexes?
Is the expression of specific sets of genes differentially regulated by both complexes?
Do they exert common and/or unique biological functions?
Do they show any interdependency for localizing to chromatin?

接着就是对各个结论进行表述及说明，这个在后续分析时再说.

我们需要先拿到这篇文章所用的ChIP-seq数据，如下：
Sequencing data have been deposited into the NCBI Gene Expression
Omnibus database under accession number GSE42466

所以我们通过https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466网页下方的ftp进行下载界面
ChIP-seq数据有SRR620204到SRR620209总共6个文件，每个文件的对应是样本Ring1B、Cbx7、Suz12、RYBP、IgG_old和IgG。bx7、Ring1B、RYBP是复合体的组成，外加PRC2的Suz12以及2个对照组.

数据的下载和整理

以SRR620204.sra为例：

ascp -T -i /home/anlan/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620204/SRR620204.sra

转化为fq格式，检查质控fastqc

for i in $(seq 4 9);do fastq-dump --split-3 SRR62020${i}.sra ;done
fastqc SRR62020*.fastq
multiqc SRR62020*

由于使用bowtie2软件将reads比对至参考基因组上，所以要下载Bowtie2的mm10的索引

wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip

最后需要mm10 refseq注释bed文件，进行网址下载http://genome.ucsc.edu/cgi-bin/hgTables，其中track和table选择RefSeq，然后输出格式为bed即可，最后下载（可以先在自己电脑上下载再传到服务器上，也可以像下面直接在服务器上下载）

curl 'http://genome.ucsc.edu/cgi-bin/hgTables?hgsid=646311755_P0RcOBvAQnWZSzQz2fQfBiPPSBen&amp;boolshad.hgta_printCustomTrackHeaders=0&amp;hgta_ctName=tb_ncbiRefSeq&amp;hgta_ctDesc=table+browser+query+on+ncbiRefSeq&amp;hgta_ctVis=pack&amp;hgta_ctUrl=&amp;fbQual=whole&amp;fbUpBases=200&amp;fbExonBases=0&amp;fbIntronBases=0&amp;fbDownBases=200&amp;hgta_doGetBed=get+BED' &gt;mm10.refseq.bed

版权声明 本文源自 Kai， XP 整理
转载请务必保留本文链接：https://www.plob.org/article/21208.html