频率学派们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值 p,这个值就是该事件的概率

他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法——极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

最大似然估计

  • 现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
  • 最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值

极大似然估计 MLE

极大似然估计(MLE)是频率学派模型参数估计的常用方法。

  • 似然:可以简单理解为概率、可能性
  • 极大似然:也就是说要最大化该事件发生的概率/可能性

极大似然估计根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率

例子:假如一个盒子里面有红黑共 10 个球,每次有放回的取出,取了 10 次,结果为 7 次黑球,3 次红球。问拿出黑球的概率 p 是多少?

  • 解答:“取了 10 次,结果为 7 次黑球,3 次红球”这个事件 A 是已经发生的,极大似然估计就是要让模型对这个整体事件 A 的预估概率最大。而这里的参数是拿出黑球的概率 p,我们要预估参数 p 使得事件 A 的概率最大。
  • 事件 A 的概率是每个子事件的概率乘积,P(A)=极大似然估计 MLE - 图1
  • 对上面的公式,两边取对数转换为累加:极大似然估计 MLE - 图2
  • 求导,令导数为 0,求极值对应的 p:
    • 极大似然估计 MLE - 图3
    • 令导数 = 0,求得 p = 0.7

极大似然估计 MLE 的推导

  • 假设数据极大似然估计 MLE - 图4是满足独立同分布的一组抽样极大似然估计 MLE - 图5
  • MLE 对参数 θ 的估计:
    • 极大似然估计 MLE - 图6

经验风险最小化

经验风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低

经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。

  • 缺点:这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计

  1. 这里举个逻辑回归(LR)处理二分类问题的例子:
  • 线性回归产生预测值 极大似然估计 MLE - 图7
  • 使用非线性的激活函数 sigmoid 极大似然估计 MLE - 图8 使预测值的取值范围变为 [0, 1]
    • 可以将其视为类 1 的后验概率估计 极大似然估计 MLE - 图9,即点 x 属于类别 1 的概率
  • 极大似然估计 MLE - 图10
  1. 逻辑回归的代价函数
  • 若样本标签为 1,样本 x 预测正确(预测为类别 1 )的概率:极大似然估计 MLE - 图11
  • 若样本标签为 0,样本 x 预测正确(预测为类别 0 )的概率:极大似然估计 MLE - 图12
  • 因此,样本 x 的正确预测概率可以合并写成:极大似然估计 MLE - 图13
  • 使用极大似然估计根据给定的训练集估计出参数 w,使得整体概率最大化(似然函数(整体概率)是对所有训练集样本的概率的连乘):极大似然估计 MLE - 图14

    注意:上式有个前提:对于训练集的 n 个样本,它们是独立同分布的。只有满足这个前提,似然函数才能写成连乘的形式,L(w) 才能称作是样本总体的似然函数

  • 为了简化运算,两边取对数极大似然估计 MLE - 图15

  • 上面要求的是使 l(w) 最大的 w,在 l(w) 前面加上负号,就得到了代价函数/损失函数(求最小)极大似然估计 MLE - 图16
    • 就是交叉熵损失函数(LogLoss)

利用梯度下降法求参数

sigmoid 的导数:极大似然估计 MLE - 图17

  • 梯度下降(利用负梯度信息):极大似然估计 MLE - 图18
  • 极大似然估计 MLE - 图19
  • 因此梯度下降法更新权重时:极大似然估计 MLE - 图20
    • 极大似然估计 MLE - 图21 是第 j 个特征的权重,极大似然估计 MLE - 图22 是第 i 个样本的第 j 个特征