1. MLE/MAP/贝叶斯
这三种其实都是求解参数的思想,或者叫做套路
在我们利用概率图模型进行参数估计时,我们需要一个假设:数据独立同分布。数据集D一般有这两种形态
没有标签,通常属于聚类问题
带有标签,可以是分类或者回归问题
根据对数据集的建模方式可以分为这两种:
- 产生式模型,直接对X和Y的联合概率分布建模,估计出P(X,Y)
- 判别式模型,估计的是条件概率分布P(Y|X)
这两种模型都可以用于分类或者回归问题。
常见概率图有着三种形式:
1.1MLE最大似然估计
最大似然估计是最常用的参数估计方法,其选择使得训练数据出现概率最大的参数。
- 首先写出似然函数
,例如
- 求参数
,通常这里我们会取负对数转换成
。这实际上是一个最优化问题,可以使用偏导数直接求解,也可以利用梯度下降方法求解。
1.2MAP最大后验估计
MAP将参数θ也看作是一个随机变量,这意味着其服从一个先验分布,显然该分布也有参数记作α(我们称之为超参数)。则概率图变为:
MAP的流程是
- 假设参数θ的先验分布P(θ)
- 写出P(θ|D),利用贝叶斯公式有
,这里分子部分我们称为evidence(证据)。
- 求参数
可以看出来与MLE相比,多了一个先验分布项。MLE可以看作是参数先验分布为1的MAP。
1.3 贝叶斯估计
学习:利用数据以及参数的先验信息得到一个后验分布,随后求期望得到参数
推理(inference):已知数据集D,给定输入x,预测输出y。即计算
这里难度在于计算θ的后验分布,所以实践中我们通常会使用采样的方法。上面的式子可以看作是对每个模型θ的预测结果做一个加权平均来获得最终的预测结果。
2.伯努利分布
2.1MLE
这里
是x=1的样本数。
令得
这里可以看到如果我们样本数为1,那么得到的θ要么为0,要么为1。这种结果很极端,因此MLE在小样本上获得的参数可能有很大偏差。
2.2. MAP
为了解决MLE在少量样本上的问题,可以对这些极端参数进行惩罚。这里我们利用MAP来对参数进行限制。
假设参数θ服从β分布,即
取后验分布的对数形式可得
解得
2.3 贝叶斯
可以将后验分布看作是参数为的Beta分布
可以看作是先验和MLE的加权和
预测:
3. 高斯分布
3.1 MLE
3.2MAP
3.3 贝叶斯估计
4. 线性回归
4.1 MLE
4.2 MAP
4.3贝叶斯估计
先写出后验分布
又由共轭先验的性质可知,后验分布也是高斯分布我们设为
其指数部分为
将两个指数对照可得
所以
预测:给新的样本,求
可以看出是随机变量w的函数,故其服从高斯分布。
期望为
方差为
