指数族分布

浏览 43 扫码分享 2023-11-21 23:59:25

背景
充分统计量与对数配分函数
充分统计量和极大似然估计
最大熵

背景

常见的指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta分布、Dirichlet分布，Gamma函数等，它们的统一格式为：
指数族分布 - 图1
其中：

是参数向量，是对数配分函数（归一化因子）, 是充分统计量。

[例]对于1维的高斯分布其中，，也就是说，1维高斯分布的充分统计量可对应均值和方差。
对于指数族分布模型中的似然，可以寻求一个共轭先验，使得先验与后验的形式相同，例如对于服从二项分布的似然，其先验与后验可以都遵循Beta分布，起到简化运算的作用。
指数族分布满足最大熵思想（无信息先验），即指数族分布是经验分布利用最大熵原理导出的。
应用：
1. 导出广义线性模型；
2. 概率图模型；
3. 变分推断；
  充分统计量与对数配分函数
  指数族分布形式：，由于（归一性）
  
  两边对求导可得：
  
  ，由此可得：
  
  例如在1维高斯分布中，，，而
  
  [注] 是需要满足一定条件的（具体不表），这里暗含了认为配分函数满足相关条件的假设。

充分统计量和极大似然估计

对于独立全同的数据集指数族分布 - 图25 ，对参数指数族分布 - 图26 的估计为：
指数族分布 - 图27
指数族分布 - 图28 ，由此可得：
指数族分布 - 图29
这也就是说，可以通过充分统计量得到参数估计。

最大熵

在信息学中，信息量的定义与其发生的概率有关：
指数族分布 - 图30
而信息熵的定义为：
指数族分布 - 图31
先补充一个引理：

[引理]对于完全随机变量（等可能），信息熵最大证明：假设数据离散，k个特征概率分别为，最大熵问题可以转化为以下优化问题：由Lagrange乘子：令，因此证毕

实际的数据不一定满足均匀分布，因此需要引入满足已知事实的约束。对于一个数据集指数族分布 - 图38 ，其经验概率分布为：指数族分布 - 图39 ，其期望与方差为别为，。假设是任意关于x的向量函数，我们使用
指数族分布 - 图40 作为数据事实的约束。于是最大信息熵的优化问题转化为：
指数族分布 - 图41
指数族分布 - 图42
此时的Lagrange函数为：
指数族分布 - 图43
指数族分布 - 图44
令导数为零：
指数族分布 - 图45
指数族分布 - 图46
可见满足最大熵条件时，这个先验的分布是指数族分布，其中：
指数族分布 - 图47

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录