如何研究基因调控(专家点评) - 《三维基因组学学习笔记》

Q1：检测非编码RNA和microRNA表达的最佳方法是什么？
Q2：您如何测定这些RNA对基因调控的影响？
Q3：为了确定表观遗传学因素对基因表达调控的影响，测定DNA甲基化或组蛋白修饰哪个更有用？为什么？
Q4：您采用什么方法来解决在ChIP-seq/ChIP-chip数据集中鉴定DNA motif的问题？
Q5：在定位蛋白-DNA相互作用时，为降低DNA污染和片段化所引起的假阳性，同时也避免太严格的数据过滤所引起的假阴性，您的主要方法是什么？
Q6：在ChIP-seq/ChIP-chip数据分析时，您首选的计算工具是什么？

随着基因组学研究的深入，人们已经不再满足于了解基因的功能，而是对基因调控表现出愈加浓厚的兴趣。现在，我们知道，DNA甲基化和组蛋白修饰可调控基因，microRNA和非编码RNA也可以。基因调控的研究工具也越来越多，包括RNA-seq、ChIP-seq、ChIP-chip等。究竟该采用哪种方法来测定miRNA表达，如何确定这些RNA对基因调控的影响呢？《Genome Technology》特邀了一些这方面的专家，向大家介绍他们如何应对挑战，他们喜欢使用哪些软件，以及他们如何应用现有的工具。
Q1：检测非编码RNA和microRNA表达的最佳方法是什么？
Q2：您如何测定这些RNA对基因调控的影响？
Q3：为了确定表观遗传学因素对基因表达调控的影响，测定DNA甲基化或组蛋白修饰哪个更有用？为什么？
Q4：您采用什么方法来解决在ChIP-seq/ChIP-chip数据集中鉴定DNA motif的问题？
Q5：在定位蛋白-DNA相互作用时，为降低DNA污染和片段化所引起的假阳性，同时也避免太严格的数据过滤所引起的假阴性，您的主要方法是什么？
Q6：在ChIP-seq/ChIP-chip数据分析时，您首选的计算工具是什么？

Q1：检测非编码RNA和microRNA表达的最佳方法是什么？

Marc Facciotti（加州大学戴维斯分校）：
我主要研究微生物，因此我的答案多与微生物研究相关。
我想这个问题的答案取决于特定情况，您是否需要定量已知RNA的丰度，或发现新的ncRNA或microRNA。对于发现研究，特别是目前没有参考基因组时，RNA-seq似乎很合适。如果您研究一种具体的微生物分离株，目前已有基因组序列，那么高密度芯片可能非常有效。qPCR也是一个定向研究的选择。
Kun Huang（俄亥俄州立大学）：
对于筛查和发现研究，RNA-seq或smRNA-seq很理想。不过，研究人员应当特别注意提取RNA的步骤、文库制备和测序方法。对于已知microRNA的测定，定量方法如NanoString是个不错的选择。
Xiaole Shirley Liu（Dana-Farber 癌症研究所）：
在测定RNA水平时，可以采用RNA-seq或smRNA-seq。随着测序通量和多重分析的增加，它们变得比芯片便宜，也给出了更高质量的数据。为了测定转录速率，人们已开发出新的技术，如GRO-seq或NET-seq。这两种技术比RNA-seq略为复杂，但研究人员也正在优化和简化操作步骤。许多研究小组开始采用这些技术。在研究瞬时或动态转录变化时，它们提供了丰富的信息。
Jun Song（加州大学旧金山分校）：
新一代测序和芯片为检测非编码RNA和小RNA的表达水平提供了互补的方法。目前，一个可通过多重测序同时测定6个或更多microRNA样品的序列。另一个可设计定制tiling芯片，覆盖基因组中的非编码RNA。

Q2：您如何测定这些RNA对基因调控的影响？

Xiaole Shirley Liu（Dana-Farber 癌症研究所）：
在大多数情况下，我们希望了解转录因子或染色质调控因子的结合是否会影响基因调控。对于转录因子，我们常常观察到，结合的数量和强度越大，结合点与基因起点越接近，则转录影响越强。在表观遗传学上，基因表达似乎是激活和抑制mark之间的定量平衡。
siRNA/miRNA可在转录后调控基因，在过去十年中有大量工作是围绕于此。最近也发现了许多非编码RNA，它们在转录或表观遗传水平调控基因表达，如piRNA、Xist、HOTAIR和eRNA。这一领域仍非常新，有许多未知的东西。
Jun Song（加州大学旧金山分校）：
研究非编码RNA的功能仍然是一个重大挑战。您可以在knockdown一个特定的非编码RNA之前和之后开展RNA-seq。通过比较两个数据集的整体表达模式，了解非编码RNA的直接和间接影响。同理，您也可以开展ChIP-seq，来检测染色体如何被非编码RNA所调控。不过，生物学系统充满了反馈环及互相联系，因此，这些高通量方法将检测到许多二级影响。
Kevin White（芝加哥大学）：
准确测定RNA对基因调控影响的唯一方法是通过详细的生物化学和分子遗传学实验。然而，异位表达microRNA或产生microRNA基因的突变体，接着开展表达谱分析，也是产生候选目标的有力方法。这种方法可进一步细化为，结合计算机预测方法或生物化学方法（如RIP-seq），以鉴定mRNA转录本中的目标位点。

Q3：为了确定表观遗传学因素对基因表达调控的影响，测定DNA甲基化或组蛋白修饰哪个更有用？为什么？

Kun Huang（俄亥俄州立大学）：
对于少量样品，特别是细胞系研究，我倾向于组蛋白修饰，利用ChIP-seq来研究几个关键的标记（如H3K4me2和H3K27me3），因为它们对基因表达的影响更明显。DNA甲基化也为表观遗传学事件提供证据，但具体影响需要进一步的深入分析来发现。对于大量样品，特别是有着数十个甚至数百个样品的临床研究，全基因组范围的DNA甲基化研究（MDBCap-seq）更理想，因成本较低。
Jason Lieb（北卡罗来纳大学教堂山分校）：
这取决于您对“表观遗传”的定义。在我看来，了解组蛋白修饰更有用，因为DNA甲基化与转录之间的关系很复杂。在大部分情况下，组蛋白修饰与转录状态之间的关系更简单。
Xiaole Shirley Liu（Dana-Farber 癌症研究所）：
DNA甲基化和组蛋白修饰都是有用的表观遗传状态测定，每个都有优点和缺点。DNA甲基化是一个更加稳定的标记，可从少量起始材料中产生，这样可用于肿瘤/生物活检的图谱分析。目前有许多不同的DNA甲基化分析方法。不同的研究小组需要根据经费、样品量、覆盖水平（全基因组 vs. 富含CpG的区域）和定量性来选择适合他们需求的方法。组蛋白标记则没那么稳定（特别是乙酰化），需要大量的新鲜细胞来进行全基因组的图谱分析，这对于组织或肿瘤而言比较难。组蛋白的ChIP-seq已经很成熟，提供了出色的数据，成本合理。与DNA甲基化相比，组蛋白可能提供了更多机制上的见解。同时，许多组蛋白有着截然不同的影响，还有许多组蛋白的特征和功能仍知之甚少。目前在分析和了解表观遗传调控上还面临很多挑战，但也创造了令人兴奋的机会。这也是表观遗传学的有趣之处！
Jun Song（加州大学旧金山分校）：
我认为，我们目前并不了解DNA甲基化和组蛋白修饰的全部后果。这些表观遗传标记的基因组位置和确切性质在确定其功能上发挥了重要作用，而我们对于相关生物学规则的认识还很有限。因此，细胞类型特异的DNA甲基化和组蛋白修饰的测定很有用。
Kevin White（芝加哥大学）：
某些组蛋白修饰无疑与基因表达状态有着最高的关联（如转录起始位点的H3K4me3）。在某些情况下，如综合癌症基因组分析，DNA甲基化可协助分辨不同的疾病分子种类，它们对应了转录谱状态。然而，鉴定调控元件的最高效途径是将各种方法结合起来，如DNase超敏性测序、监控组蛋白修饰状态和定位特定的调控元件，如p300或位点特异的转录因子。ENCODE和modENCODE项目在利用这种综合方法定位调控元件方面取得了成功。

Q4：您采用什么方法来解决在ChIP-seq/ChIP-chip数据集中鉴定DNA motif的问题？

Kun Huang（俄亥俄州立大学）：
这是个困难的问题。我们通常采用多种方法，包括将已知motif与区域配对，并利用ChIP-Motif等工具鉴定已知的motif和发现新的motif。
Jason Lieb（北卡罗来纳大学教堂山分校）：
我们一般查看检出峰周围100-200 bp。可靠鉴定motif的重要一步是利用适当的背景序列来进行检测。我们通常利用待测区域周围100-200 bp的DNA序列，这确保了如果您的TF只结合启动子，那么您使用启动子序列作为背景，而不是随机基因组序列，从而降低了假阳性。我们使用多个软件，包括CisFinder、HOMER、MEME和BioProspector。
Xiaole Shirley Liu（Dana-Farber 癌症研究所）：
与从共调控基因的启动子中发现motif相比，从ChIP-chip/seq数据中发现motif更为简单，因数据质量更好。唯一的挑战是数据量大。一些工具非常适合这类分析，包括SeqPos、CisGenome和MEME-chip。
Jun Song（加州大学旧金山分校）：
我尝试汇集尽可能多的信息，以避免假阳性。例如，进化保守性、核小体定位、开放的染色质等，这些都为发现有功能的DNA motif提供了有用的信息。
Kevin White（芝加哥大学）：
发现ChIP-seq数据集中的motif并不是那么困难。我们曾使用多种方法，包括de novo motif鉴定。然而，对于许多不同类的转录因子，由于现有的位置权重矩阵（PWM）的不断增加，对特定数据集中所有的PWM进行打分也许是最快最简单的方法。

Q5：在定位蛋白-DNA相互作用时，为降低DNA污染和片段化所引起的假阳性，同时也避免太严格的数据过滤所引起的假阴性，您的主要方法是什么？

Marc Facciotti（加州大学戴维斯分校）：
首先，从微生物的角度来看，我们选择对天然表达的转录因子开展ChIP实验。我们认为，这能够将与过表达质粒相关的假阳性降至最低。第二，我们不会完全相信任何自动化的峰检测算法。我们的策略是建立我们自己的自动化峰检测工具，它让假阴性降至最低，代价是一些假阳性峰也会被报告。随后，我们手动组织峰列表，避免明显的假阳性。这听上去似乎很耗时，但对于小的微生物基因组并非如此。与后面追踪和验证假线索所浪费的时间和头痛相比，前面花费的时间是值得的。
Kun Huang（俄亥俄州立大学）：
根据我的经验，关键是样品/文库制备步骤，我们与生物学家密切合作，以了解QC过程。根据我们对多个实验的观察，交联和超声处理步骤很关键，但没有得到足够的重视。与ChIP-PCR或ChIP-chip等方法不同，其中的污染或“坏”片段不会被扩增或测定，ChIP-seq将受到这些步骤的严重影响。因此在测序之前需要小心控制片段大小。
对于文库中已经被测序的潜在污染，污染来源（如病毒）常常有着小的基因组，倾向于高度扩增。因此必须从原始数据中去除过度重复的序列。此外，有时候它们无法定位到参考基因组，因此明显降低定位率。在某些情况下，通过Blast高度重复的序列，我们可检测污染的来源。
Jason Lieb（北卡罗来纳大学教堂山分校）：
免疫沉淀应当在封闭试剂（如BSA）存在时用经过验证的抗体来开展。最近Frank Pugh实验室开发出一种新技术ChIP-exo，无疑将提高信噪比。
Xiaole Shirley Liu（Dana-Farber 癌症研究所）：
在研究蛋白-DNA相互作用时，ChIP-seq是最好的方法。DNA污染不是个大问题，但抗体质量会大大影响最终的数据质量和噪音水平。片段化（如超声条件）也有影响。抗体的质量控制、一致的步骤和生物学重复是确保数据质量的最好方法。分析方法也很重要。峰检出程序（如MACS）提供了每个的ChIP-seq检出峰的倍数变化、p值和FDR。
Jun Song（加州大学旧金山分校）：
我们使用对照DNA的测序数据，以便对细胞类型特异的背景噪音和偏向进行建模。我们还通过分离基因组区域，开展多个样品的标准化，这些区域包含来自背景区域的生物学信号。我们使用不同的回归模型和随机过程的思路，过滤掉偏向和假象。

Q6：在ChIP-seq/ChIP-chip数据分析时，您首选的计算工具是什么？

Marc Facciotti（加州大学戴维斯分校）：
我不能说哪个最喜欢。我们建立了内部的峰检测软件，它能够处理一些古怪的基因组。我们用custom R和Python scripts及其他现有的工具分析产生的峰列表。
Kun Huang（俄亥俄州立大学）：
我们发现，在进行转录因子的常规分析时，商业化的软件（如Partek）非常有用。然而，我们一般使用两种或三种其他的峰检出软件包（MACS、HOMER、SISSR），来检查峰检测的一致性。对于长的区域，我们使用内部开发的算法。我们应用多种方法来寻找motif，包括鉴定已知的motif，并通过ChIP-Motif等工具进行de novo motif发现。Partek motif分析工具也十分有用。
Jason Lieb（北卡罗来纳大学教堂山分校）：
对于ChIP-seq数据，我们一般使用ZINBA，对于ChIP-chip数据，我们用MA2C。
Xiaole Shirley Liu（Dana-Farber 癌症研究所）：
我们最喜欢Cistrome和CisGenome。
Kevin White（芝加哥大学）：
这是个快速发展的领域。我们今天所用的可能并不是明天所用的，因为峰检出的方法在不断改进。然而，我们现在正与斯坦福的Mike Snyder研究小组合作，重新分析来自modENCODE计划的人、果蝇、蠕虫和小鼠的ChIP-seq数据，以便为利用BWA和SAM工具进行比对和质量控制、MACS2进行峰检出和IDR进行重复性分析的研究人员提供标准化的数据集。