一、背景

  1. 一般形式

指数族分布有:高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等。
指数族分布的一般形式:

指数族分布 - 图1

其中:
指数族分布 - 图2:参数向量;
指数族分布 - 图3:充分统计量,Sufficient statistic;
指数族分布 - 图4:log partition function(log配分函数)
指数族分布 - 图5:不很重要,通常取1。

  1. 配分函数

    指数族分布 - 图6

通常如果我们得到一个可以表达分布的函数指数族分布 - 图7但是其积分不为1,需要除以一个归一化因子指数族分布 - 图8来将其归一,这个归一化因子指数族分布 - 图9就是配分函数,指数族分布 - 图10取值为指数族分布 - 图11的积分:

指数族分布 - 图12

解释一下为什么指数族分布 - 图13叫log配分函数:

指数族分布 - 图14

因此指数族分布 - 图15就是配分函数,指数族分布 - 图16就是log配分函数。

  1. 指数族分布的特点、模型和应用

指数族分布 - 图17

  • 充分统计量

指数族分布 - 图18是充分统计量。
什么是充分统计量?举例来说,对于从一些从高斯分布中抽取出来的样本指数族分布 - 图19,以下统计量就是充分统计量:

指数族分布 - 图20

因为通过上述统计量可以计算样本的均值和方差进而得到其明确的分布。
有了充分统计量就可以将样本丢掉,从而节省了空间,对online learning有重要意义。

  • 共轭

    指数族分布 - 图21

在上面的贝叶斯公式中由于分母指数族分布 - 图22积分难或者指数族分布 - 图23的形式太复杂,因此直接求指数族分布 - 图24是很困难的,因此求指数族分布 - 图25也是很困难的,所以人们想了很多办法比如近似推断(变分推断、MCMC等),这些方法的提出都是因为上述积分难的问题。
共轭的概念是指在给定一个特殊的似然(指数族分布 - 图26)的情况下,后验(指数族分布 - 图27)与先验(指数族分布 - 图28)会有一个形式相同的分布,这也就解决了上述积分困难的问题,避免了就分母上的积分项常数。
举个例子:

指数族分布 - 图29

  • 最大熵

给出先验指数族分布 - 图30的一些方法包括:
①共轭指数族分布 - 图31计算上的方便;
②最大熵指数族分布 - 图32无信息先验;
③Jerrif。
最大熵原理给出了一种定义先验的方式,可以使得参数更加地随机。

  • 广义线性模型

广义线性模型中出现的一些概念:
指数族分布 - 图33

  • 概率图模型

无向图中的RBM(限制玻尔兹曼机)应用到了指数族分布。

二、高斯分布的指数族分布形式

以一维高斯分布为例,将高斯分布整理成指数族分布的形式:

指数族分布 - 图34

然后即可获得指数族分布 - 图35指数族分布 - 图36的关系:

指数族分布 - 图37

指数族分布 - 图38代入指数族分布 - 图39可以得到如下结果:

指数族分布 - 图40

由此就将高斯分布整理成了指数族分布的形式:

指数族分布 - 图41

三、对数配分函数与充分统计量

通过对指数族分布的通用形式进行整理,可以得出对数配分函数与充分统计量
的特定关系:

指数族分布 - 图42

类似地,继续对指数族分布 - 图43求二阶导数:

指数族分布 - 图44

四、极大似然估计与充分统计量

上述推导都是在无样本条件下进行的,在有样本的情况下我们也可以通过极大似然估计法来获得一些特定的关系,假设有如下数据:

指数族分布 - 图45

然后使用极大似然估计法求解指数族分布 - 图46

指数族分布 - 图47

指数族分布 - 图48就可以通过求指数族分布 - 图49的反函数求出来。这说明指数族分布 - 图50是充分统计量,因为只需要记录指数族分布 - 图51这一个值就可以求出指数族分布 - 图52,进而通过指数族分布 - 图53求出所有的参数。

五、最大熵

  1. 概述

首先定义信息量和熵:

指数族分布 - 图54

  1. 离散情况下的最大熵

假设指数族分布 - 图55是离散的:

x 1 2 \cdots k
P p_{1} p_{2} \cdots p_{k }

通过求解以下约束优化问题可以求得使得离散情况下熵最大的分布:

指数族分布 - 图61

使用拉格朗日乘子法进行求解:

指数族分布 - 图62

离散情况下均匀分布会使得熵最大。也就是说在没有任何已知条件约束的情况下均匀分布的熵最大。