频率派vs贝叶斯派

将频率引入机器学习是一件很自然的事，可以把数据当作是一个概率模型。对概率的理解有两大学派：频率派(Frequentits)和贝叶斯派(Bayesian)。
符号说明：
绪论 - 图1
绪论 - 图2 表示含绪论 - 图3 个样本(sample)的数据，每个样本为绪论 - 图4 维向量，绪论 - 图5 表示参数(parameter)。

频率派的观点

频率派认为参数绪论 - 图6 是一个固定的未知常数(unknown constant)，绪论 - 图7 为随机变量(random variable)，绪论 - 图8 独立同分布于绪论 - 图9 。样本总体的分布为绪论 - 图10 为了求绪论 - 图11 采用最大似然估计(MLE: maximum likelihood estimation)得到：
绪论 - 图12
频率派的观点：一旦表现度量确定之后，机器学习的问题就基本上转换成了一个优化问题(optimization problem)，要做的工作就是设计一个高效求解的优化算法。

贝叶斯派的观点

贝叶斯派将绪论 - 图13 当作是一个随机变量，绪论 - 图14 符合某种分布，记为绪论 - 图15 ，称为先验分布(prior)。
最大后验估计
根据贝叶斯公式：
绪论 - 图16

使用最大后验估计(MAP: maximum a posteriori probability estimate)来估计绪论 - 图17 ：
绪论 - 图18

使用MAP来估计绪论 - 图20 ，本质上是以使得后验概率最大的绪论 - 图21 来代替一个随机变量绪论 - 图22 ，因此MAP本质上并不是真正的贝叶斯估计。
贝叶斯估计
真正的贝叶斯估计就是要求后验概率分布：
绪论 - 图23
我们求得后验概率分布的目的就是为了进行贝叶斯预测，
贝叶斯预测
我们就后验概率分布的目的就是为了进行推断，即求绪论 - 图24 ，绪论 - 图25 为一个新的数据。
根据概率的链式法则，得到：
绪论 - 图26

上式推导：
根据链式法则和乘法公式
绪论 - 图28
两端消去共同项 绪论 - 图29 ，得到：
绪论 - 图30