1. MLE/MAP/贝叶斯

这三种其实都是求解参数的思想,或者叫做套路
在我们利用概率图模型进行参数估计时,我们需要一个假设:数据独立同分布。数据集D一般有这两种形态

  • 第4次课堂笔记 - 图1 没有标签,通常属于聚类问题
  • 第4次课堂笔记 - 图2 带有标签,可以是分类或者回归问题

根据对数据集的建模方式可以分为这两种:

  • 产生式模型,直接对X和Y的联合概率分布建模,估计出P(X,Y)
  • 判别式模型,估计的是条件概率分布P(Y|X)

这两种模型都可以用于分类或者回归问题。
常见概率图有着三种形式:
image.png

1.1MLE最大似然估计

最大似然估计是最常用的参数估计方法,其选择使得训练数据出现概率最大的参数。

  1. 首先写出似然函数第4次课堂笔记 - 图4,例如第4次课堂笔记 - 图5
  2. 求参数 第4次课堂笔记 - 图6,通常这里我们会取负对数转换成第4次课堂笔记 - 图7。这实际上是一个最优化问题,可以使用偏导数直接求解,也可以利用梯度下降方法求解。

MLE在数据量很小时会出现严重的偏差。

1.2MAP最大后验估计

MAP将参数θ也看作是一个随机变量,这意味着其服从一个先验分布,显然该分布也有参数记作α(我们称之为超参数)。则概率图变为:
image.png
MAP的流程是

  1. 假设参数θ的先验分布P(θ)
  2. 写出P(θ|D),利用贝叶斯公式有第4次课堂笔记 - 图9,这里分子部分我们称为evidence(证据)。
  3. 求参数 第4次课堂笔记 - 图10

可以看出来与MLE相比,多了一个先验分布项。MLE可以看作是参数先验分布为1的MAP。

1.3 贝叶斯估计

学习:利用数据以及参数的先验信息得到一个后验分布,随后求期望得到参数第4次课堂笔记 - 图11
推理(inference):已知数据集D,给定输入x,预测输出y。即计算
第4次课堂笔记 - 图12
这里难度在于计算θ的后验分布,所以实践中我们通常会使用采样的方法。上面的式子可以看作是对每个模型θ的预测结果做一个加权平均来获得最终的预测结果。

2.伯努利分布

第4次课堂笔记 - 图13

2.1MLE

第4次课堂笔记 - 图14 这里第4次课堂笔记 - 图15是x=1的样本数。
第4次课堂笔记 - 图16第4次课堂笔记 - 图17
这里可以看到如果我们样本数为1,那么得到的θ要么为0,要么为1。这种结果很极端,因此MLE在小样本上获得的参数可能有很大偏差。

2.2. MAP

为了解决MLE在少量样本上的问题,可以对这些极端参数进行惩罚。这里我们利用MAP来对参数进行限制。
假设参数θ服从β分布,即第4次课堂笔记 - 图18
第4次课堂笔记 - 图19
取后验分布的对数形式可得第4次课堂笔记 - 图20
解得第4次课堂笔记 - 图21

2.3 贝叶斯

可以将后验分布看作是参数为第4次课堂笔记 - 图22的Beta分布
第4次课堂笔记 - 图23
第4次课堂笔记 - 图24可以看作是先验和MLE的加权和
预测:
第4次课堂笔记 - 图25

3. 高斯分布

3.1 MLE

第4次课堂笔记 - 图26
求得第4次课堂笔记 - 图27

3.2MAP

第4次课堂笔记 - 图28
第4次课堂笔记 - 图29
第4次课堂笔记 - 图30
第4次课堂笔记 - 图31
第4次课堂笔记 - 图32
可得第4次课堂笔记 - 图33可以看出这个形式正符合高斯分布
第4次课堂笔记 - 图34

3.3 贝叶斯估计

第4次课堂笔记 - 图35
第4次课堂笔记 - 图36

4. 线性回归

4.1 MLE

每个特征xi均服从正态分布,第4次课堂笔记 - 图37则有:
第4次课堂笔记 - 图38
第4次课堂笔记 - 图39

4.2 MAP

  1. 第4次课堂笔记 - 图40
  2. 第4次课堂笔记 - 图41

求导得第4次课堂笔记 - 图42

4.3贝叶斯估计

先写出后验分布
第4次课堂笔记 - 图43
第4次课堂笔记 - 图44
第4次课堂笔记 - 图45
第4次课堂笔记 - 图46
又由共轭先验的性质可知,后验分布也是高斯分布我们设为第4次课堂笔记 - 图47
其指数部分为第4次课堂笔记 - 图48
将两个指数对照可得
第4次课堂笔记 - 图49
第4次课堂笔记 - 图50
所以
第4次课堂笔记 - 图51
预测:给新的样本第4次课堂笔记 - 图52,求第4次课堂笔记 - 图53
第4次课堂笔记 - 图54可以看出是随机变量w的函数,故其服从高斯分布。
期望为第4次课堂笔记 - 图55
方差为第4次课堂笔记 - 图56