背景
常见的指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta分布、Dirichlet分布,Gamma函数等,它们的统一格式为:
其中:
是参数向量,
是对数配分函数(归一化因子),
是充分统计量。
[例]对于1维的高斯分布
其中,
,也就是说,1维高斯分布的充分统计量可对应均值和方差。
对于指数族分布模型中的似然,可以寻求一个共轭先验,使得先验与后验的形式相同,例如对于服从二项分布的似然,其先验与后验可以都遵循Beta分布,起到简化运算的作用。
- 指数族分布满足最大熵思想(无信息先验),即指数族分布是经验分布利用最大熵原理导出的。
- 应用:
充分统计量和极大似然估计
对于独立全同的数据集,对参数
的估计为:
,由此可得:
这也就是说,可以通过充分统计量得到参数估计。
最大熵
在信息学中,信息量的定义与其发生的概率有关:
而信息熵的定义为:
先补充一个引理:
[引理]对于完全随机变量(等可能),信息熵最大 证明: 假设数据离散,k个特征概率分别为
,最大熵问题可以转化为以下优化问题:
由Lagrange乘子:
令
![]()
,因此
证毕
实际的数据不一定满足均匀分布,因此需要引入满足已知事实的约束。对于一个数据集,其经验概率分布为:
,其期望与方差为别为,。假设是任意关于x的向量函数,我们使用
作为数据事实的约束。于是最大信息熵的优化问题转化为:
此时的Lagrange函数为:
令导数为零:
可见满足最大熵条件时,这个先验的分布是指数族分布,其中:
