1. MLE/MAP/贝叶斯

这三种其实都是求解参数的思想，或者叫做套路
在我们利用概率图模型进行参数估计时，我们需要一个假设：数据独立同分布。数据集D一般有这两种形态

没有标签，通常属于聚类问题
带有标签，可以是分类或者回归问题

根据对数据集的建模方式可以分为这两种：

产生式模型，直接对X和Y的联合概率分布建模，估计出P(X,Y)
判别式模型，估计的是条件概率分布P(Y|X)

这两种模型都可以用于分类或者回归问题。
常见概率图有着三种形式：

1.1MLE最大似然估计

最大似然估计是最常用的参数估计方法，其选择使得训练数据出现概率最大的参数。

首先写出似然函数，例如
求参数，通常这里我们会取负对数转换成。这实际上是一个最优化问题，可以使用偏导数直接求解，也可以利用梯度下降方法求解。

MLE在数据量很小时会出现严重的偏差。

1.2MAP最大后验估计

MAP将参数θ也看作是一个随机变量，这意味着其服从一个先验分布，显然该分布也有参数记作α（我们称之为超参数）。则概率图变为：

MAP的流程是

假设参数θ的先验分布P(θ)
写出P(θ|D)，利用贝叶斯公式有，这里分子部分我们称为evidence（证据）。
求参数

可以看出来与MLE相比，多了一个先验分布项。MLE可以看作是参数先验分布为1的MAP。

1.3 贝叶斯估计

学习：利用数据以及参数的先验信息得到一个后验分布，随后求期望得到参数第4次课堂笔记 - 图11
推理（inference）：已知数据集D，给定输入x，预测输出y。即计算
第4次课堂笔记 - 图12
这里难度在于计算θ的后验分布，所以实践中我们通常会使用采样的方法。上面的式子可以看作是对每个模型θ的预测结果做一个加权平均来获得最终的预测结果。

2.伯努利分布

第4次课堂笔记 - 图13

2.1MLE

第4次课堂笔记 - 图14 这里第4次课堂笔记 - 图15 是x=1的样本数。
令第4次课堂笔记 - 图16 得第4次课堂笔记 - 图17
这里可以看到如果我们样本数为1，那么得到的θ要么为0，要么为1。这种结果很极端，因此MLE在小样本上获得的参数可能有很大偏差。

2.2. MAP

为了解决MLE在少量样本上的问题，可以对这些极端参数进行惩罚。这里我们利用MAP来对参数进行限制。
假设参数θ服从β分布，即第4次课堂笔记 - 图18
第4次课堂笔记 - 图19
取后验分布的对数形式可得第4次课堂笔记 - 图20
解得第4次课堂笔记 - 图21

2.3 贝叶斯

可以将后验分布看作是参数为第4次课堂笔记 - 图22 的Beta分布
第4次课堂笔记 - 图23
第4次课堂笔记 - 图24 可以看作是先验和MLE的加权和
预测：
第4次课堂笔记 - 图25

3. 高斯分布

3.1 MLE

第4次课堂笔记 - 图26
求得第4次课堂笔记 - 图27

3.2MAP

第4次课堂笔记 - 图28
第4次课堂笔记 - 图29
则第4次课堂笔记 - 图30
第4次课堂笔记 - 图31
令第4次课堂笔记 - 图32
可得第4次课堂笔记 - 图33 可以看出这个形式正符合高斯分布
第4次课堂笔记 - 图34

3.3 贝叶斯估计

第4次课堂笔记 - 图35
第4次课堂笔记 - 图36

4. 线性回归

4.1 MLE

每个特征xi均服从正态分布，第4次课堂笔记 - 图37 则有：
第4次课堂笔记 - 图38
第4次课堂笔记 - 图39

4.2 MAP

求导得第4次课堂笔记 - 图42

4.3贝叶斯估计

先写出后验分布
第4次课堂笔记 - 图43
第4次课堂笔记 - 图44
第4次课堂笔记 - 图45
第4次课堂笔记 - 图46
又由共轭先验的性质可知，后验分布也是高斯分布我们设为第4次课堂笔记 - 图47
其指数部分为第4次课堂笔记 - 图48
将两个指数对照可得
第4次课堂笔记 - 图49
第4次课堂笔记 - 图50
所以
第4次课堂笔记 - 图51
预测：给新的样本第4次课堂笔记 - 图52 ,求第4次课堂笔记 - 图53
第4次课堂笔记 - 图54 可以看出是随机变量w的函数，故其服从高斯分布。
期望为第4次课堂笔记 - 图55
方差为第4次课堂笔记 - 图56