因果发现框架

我们将因果发现这一任务视为科学家对抗自然的归纳博弈。自然界拥有稳定的因果机制,具体地讲就是变量间的确定函数关系,其中有些关系是无法未被观测到的。这些机制以非循环结构的形式被组织起来,科学家试图从有效的观察中识别出这些结构。

定义 2.2.1. (因果结构)

变量集合V的因果结构是一个有向无环图(DAG),图中每个节点与V中的元素一一对应,每条连接代表对应变量之间的直接函数关系。

因果结构为形式化“因果模型”提供了蓝图-它精确地描述了DAG中每个变量 如何 受其父变量影响,如同(1.40)的结构方程模型一样。这里我们假设大自然可以自由地对每个结果和其原因之间施加任意函数关系,然后通过引入任意(但相互独立)的干扰来扰乱这种关系。这些干扰表现为“隐藏”或不可测量的条件,他们由未公开的概率函数决定。

定义2.2.2 (因果模型)

概率模型是一个二元组 $\mathit{M = \langle D, \Theta_D \rangle}$ ,其中 $\mathit{D}$ 为因果结构,$\mathit{\Theta_D}$ 为与 $\mathit{D}$ 相匹配的参数集合。

$\mathit{\Theta_D = \langle x_i, P(u_i) \rangle} $

对每一个 $\mathit{X_i \in V, x_i = f_i(pa_i, u_i)}$,其中 $\mathit{PA_i}$ 是 $\mathit{D}$ 中 $\mathit{X_i}$ 的父节点,每一个 $\mathit{U_i}$ 是按 $\mathit{P(u_i)}$ 分布的随机干扰,独立于所有其他 $\mathit{u}$。$\mathit{P(u_i)}$ 是对每一个 $\mathit{u_i}$ 的概率测度。

正如我们第一章所讲,独立干扰假设让模型成为 马尔可夫模型 ,即每个变量都以 $\mathit{D}$ 中它的父节点为条件且与其非后代独立。马尔可夫假设在人类话语中无处不在可能反映了我们认为对理解自然有用的模型的粒度。我们可以从极端确定性开始,所有变量都用微观细节解释,马尔可夫条件当然成立。当我们通过聚合变量和引入概率来总结省略变量以走向宏观抽象时,我们需要确定抽象在哪个阶段走得太远,以及在哪里丢失了因果关系的有用属性。显然,马尔可夫条件已经被我们的先人(我们因果思想的缔造者)认为是这种抽象过程中值得保护的属性。没有用共因解释的相关性被认为是虚假的,而包含相关性的模型被认为是不完整的。马尔可夫条件指引我们判定何时一组父节点 $\mathit{PA_i}$ 是完整的,即它包含了变量的所有直接原因。它允许我们将这些原因中的一些排除在 $\mathit{PA_i}$ 之外(有概率总结概括),但如果他们同时还影响系统建模中的其他变量则不被允许。如果模型中的一组父节点太窄,则会存在干扰项同时影响多个变量,此时马尔可夫性将会丢失。这种干扰将被明确地视为“潜在”变量(见定义2.3.2)。一旦我们确认了潜在变量的存在,并将其显式表示为图中的节点,马尔可夫性就恢复了。

一旦因果模型 $\mathit{M}$ 被建立,它定义了系统中变量的联合概率分布 $\mathit{P(M)}$。这个分布反映了因果结构的一些特性(比如给定父变量的值,每个变量必须与其祖父变量独立)。然后大自然允许科学家审视“观察到的”变量的一个选定子集 $\mathit{O \in U}$ 并提问 $\mathit{P{[o]}}$ (观测值上的概率分布)会怎样,但它隐藏了背后的因果模型和因果结构。我们研究的就是从概率分布 $\mathit{P{[o]}}$ 特征中恢复DAG拓扑结构D的可行性。