• 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
  • 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

    1. 两大学派的争论

    抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:
    频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;
    而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

在对事物建模时,用 MLE和MAP - 图1 表示模型的参数,请注意,解决问题的本质就是求 MLE和MAP - 图2那么:
(1) 频率学派:存在唯一真值 MLE和MAP - 图3 。举一个简单直观的例子—抛硬币,我们用 MLE和MAP - 图4 来表示硬币的bias。抛一枚硬币100次,有20次正面朝上,要估计抛硬币正面朝上的bias MLE和MAP - 图5 。在频率学派来看,MLE和MAP - 图6 = 20 / 100 = 0.2,很直观。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即 MLE和MAP - 图7 = 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币 MLE和MAP - 图8 = 1,出现严重错误。
(2) 贝叶斯学派: MLE和MAP - 图9 是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即 MLE和MAP - 图10 ,指的是在没有观测到任何数据时对 MLE和MAP - 图11 的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即 MLE和MAP - 图12 ,是假设 MLE和MAP - 图13 已知后我们观察到的数据应该是什么样子的;后验,即 MLE和MAP - 图14 ,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:
MLE和MAP - 图15
同样是抛硬币的例子,对一枚均匀硬币抛5次得到5次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么 MLE和MAP - 图16 ,即 MLE和MAP - 图17 ,是一个distribution,最大值会介于0.5~1之间,而不是武断的 MLE和MAP - 图18 = 1。
这里有两点值得注意的地方:

  • 随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小(每次得到的后验概率作为下一轮的先验)
  • 如果先验是uniform distribution,则贝叶斯方法等价于频率方法。因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判

    2. MLE-最大似然估计

    Maximum Likelihood Estimation, MLE是频率学派常用的估计方法!
    假设数据 MLE和MAP - 图19 是i.i.d.的一组抽样,MLE和MAP - 图20 。其中i.i.d.表示Independent and identical distribution,独立同分布。那么MLE对 MLE和MAP - 图21 的估计方法可以如下推导:
    MLE和MAP - 图22

    3. MAP-最大后验估计

    Maximum A Posteriori, MAP是贝叶斯学派常用的估计方法!
    同样的,假设数据 MLE和MAP - 图23 是i.i.d.的一组抽样,MLE和MAP - 图24 。那么MAP对 MLE和MAP - 图25 的估计方法可以如下推导:
    MLE和MAP - 图26
    其中,第二行到第三行使用了贝叶斯定理,第三行到第四行MLE和MAP - 图27 可以丢掉因为与 MLE和MAP - 图28 无关。
    好的,那现在我们来研究一下这个先验项,假定先验是一个高斯分布,即
    MLE和MAP - 图29
    那么, MLE和MAP - 图30 。至此,一件神奇的事情发生了 — 在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的regularizaton!