背景

常见的指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta分布、Dirichlet分布,Gamma函数等,它们的统一格式为:
指数族分布 - 图1
其中:

  1. 指数族分布 - 图2是参数向量,指数族分布 - 图3是对数配分函数(归一化因子), 指数族分布 - 图4是充分统计量。

    [例]对于1维的高斯分布 指数族分布 - 图5 指数族分布 - 图6 指数族分布 - 图7 其中, 指数族分布 - 图8指数族分布 - 图9指数族分布 - 图10 ,也就是说,1维高斯分布的充分统计量可对应均值和方差。

  2. 对于指数族分布模型中的似然,可以寻求一个共轭先验,使得先验与后验的形式相同,例如对于服从二项分布的似然,其先验与后验可以都遵循Beta分布,起到简化运算的作用。

  3. 指数族分布满足最大熵思想(无信息先验),即指数族分布是经验分布利用最大熵原理导出的。
  4. 应用:
    1. 导出广义线性模型;
    2. 概率图模型;
    3. 变分推断;

      充分统计量与对数配分函数

      指数族分布形式:指数族分布 - 图11,由于指数族分布 - 图12(归一性)
      指数族分布 - 图13
      两边对求导可得:指数族分布 - 图14
      指数族分布 - 图15
      指数族分布 - 图16
      指数族分布 - 图17,由此可得:
      指数族分布 - 图18
      指数族分布 - 图19
      例如在1维高斯分布中,指数族分布 - 图20指数族分布 - 图21,而
      指数族分布 - 图22
      指数族分布 - 图23

      [注] 指数族分布 - 图24是需要满足一定条件的(具体不表),这里暗含了认为配分函数满足相关条件的假设。

充分统计量和极大似然估计

对于独立全同的数据集指数族分布 - 图25,对参数指数族分布 - 图26的估计为:
指数族分布 - 图27
指数族分布 - 图28,由此可得:
指数族分布 - 图29
这也就是说,可以通过充分统计量得到参数估计

最大熵

在信息学中,信息量的定义与其发生的概率有关:
指数族分布 - 图30
而信息熵的定义为:
指数族分布 - 图31
先补充一个引理:

[引理]对于完全随机变量(等可能),信息熵最大 证明: 假设数据离散,k个特征概率分别为指数族分布 - 图32,最大熵问题可以转化为以下优化问题: 指数族分布 - 图33 由Lagrange乘子:指数族分布 - 图34指数族分布 - 图35 指数族分布 - 图36,因此 指数族分布 - 图37 证毕

实际的数据不一定满足均匀分布,因此需要引入满足已知事实的约束。对于一个数据集指数族分布 - 图38,其经验概率分布为:指数族分布 - 图39,其期望与方差为别为,。假设是任意关于x的向量函数,我们使用
指数族分布 - 图40作为数据事实的约束。于是最大信息熵的优化问题转化为:
指数族分布 - 图41
指数族分布 - 图42
此时的Lagrange函数为:
指数族分布 - 图43
指数族分布 - 图44
令导数为零:
指数族分布 - 图45
指数族分布 - 图46
可见满足最大熵条件时,这个先验的分布是指数族分布,其中:
指数族分布 - 图47