推断因果关系理论

  1. 宁知一因果,胜做波斯王。
  2. -- 德谟克里特(公元前460-370

前言

从原始数据中学习因果关系的可能性自大卫·休谟时代(1711-1776)以来就一直在哲学家的梦想清单上。直到20世纪80年代中期,随着图和概率依赖之间的数学关系被揭露出来,这种可能性才进入形式化处理和可行计算领域。本章描述的方法是 Rebane & Pearl (1987)Pearl (1988b, Chap. 8) 的产物,它描述了如果人们对数据生成的潜在过程做出某种假设(例如它是树形结构),那么如何从非时间性的(nontemporal )统计数据中推断出因果关系。从弱结构化假设(例如一般有向无环图)推断出因果关系的前景促使3所大学进行了平行研究:加州大学洛杉矶分校、卡内基梅隆大学和斯坦福大学。加州大学洛杉矶分校和卡内基梅隆大学采用的方法基于从数据中搜索条件独立模式,这些模式揭示潜在结构的碎片,然后将这些碎片拼凑成连贯的符合逻辑的因果模型(或一组类似的模型)。斯坦福大学则采用贝叶斯方法,在这种方法中,数据被用于更新分配给候选因果结构的后验概率 (Cooper and Herskovits 1991) 。加州大学洛杉矶分校和卡内基梅隆大学的工作带来了类似的理论和几乎相同的算法,这些算法都被TETRAD II程序实现 (Spirtes et al. 1993) 。此后贝叶斯方法被很多研究团队采用 (Singh and Valtorta 1995; Heckerman et al. 1994) ,如今已经是好几个图学习算法的基础 (Jordan 1998) 。本章描述的方法是Tom Verma和我在1988–1992期间采用的方法,并且简要地总结了由卡内基梅隆大学和其他团队发展的相关扩展、优化和改进。这些发展背后的某些哲学原理,主要是最小化假设,也蕴含在贝叶斯方法中(见2.9.1)。

自动发现因果关系的基本思想-以及计算机程序中这些思想的具体实现-在很多论坛引起了激烈地讨论 (Cartwright 1995a; Humphreys and Freedman 1996; Cartwright 1999; Korb and Wallace 1997; McKim and Turner 1997; Robins and Wasserman 1999) 。我将节选这场讨论中的某些观点附在本章最后的讨论部分(见2.9.1)。

尽管承认统计相关逻辑上不蕴含因果,但本章还是要问二者之间是否存在微弱的关系?我们尤其会问:

  1. 哪些线索导致人们从不可控的观察中觉察到因果关系?
  2. 什么假设让我们从这些线索中推断出因果模型?
  3. 这些推断出的模型能告诉我们关于观察背后的因果机制的有用信息吗?

2.2节我们会定义因果模型和因果结构的观念,然后将因果发现这一任务描述成科学家对抗自然的归纳博弈。

2.3节我们通过引入“最小化模型”语义-语义学版本的奥卡姆剃刀-来形式化归纳博弈,并举例说明相较于一般传统做法,如何遵循归纳法的标准范式从混杂因子中识别出因果关系。

2.4节识别一种所谓稳定(或忠实)的情况,在这种情况下存在有效的算法能够发现因果影响结构。其中一个叫IC的算法,在假设所有变量都能被观察的情况下,能够发现与数据兼容的所有因果模型的集合。这个算法将在2.5节介绍。

2.6节介绍另一个叫IC*的算法,当某些变量无法被观察时,IC*算法可以发现许多(尽管不是所有)有效的因果关系。

2.7节我们将进一步深挖IC*算法,找到能够推断出因果影响的必要条件。这些必要条件我们将以真实影响和虚假关联2个独立定义给出。

2.8节对因果关系在时间层面和统计层面之间令人费解但普遍存在的一致性给出解释。

最后,2.9节对本章的观点进行了总结,重申得到这些结论的假设,并结合持续进行的讨论对这些假设给出新的正当理由。