频率学派们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值 p,这个值就是该事件的概率。
他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法——极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
最大似然估计:
- 现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
- 最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
极大似然估计 MLE
极大似然估计(MLE)是频率学派模型参数估计的常用方法。
- 似然:可以简单理解为概率、可能性
- 极大似然:也就是说要最大化该事件发生的概率/可能性
极大似然估计:根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。
例子:假如一个盒子里面有红黑共 10 个球,每次有放回的取出,取了 10 次,结果为 7 次黑球,3 次红球。问拿出黑球的概率 p 是多少?
- 解答:“取了 10 次,结果为 7 次黑球,3 次红球”这个事件 A 是已经发生的,极大似然估计就是要让模型对这个整体事件 A 的预估概率最大。而这里的参数是拿出黑球的概率 p,我们要预估参数 p 使得事件 A 的概率最大。
- 事件 A 的概率是每个子事件的概率乘积,P(A)=
- 对上面的公式,两边取对数转换为累加:
- 求导,令导数为 0,求极值对应的 p:
- 令导数 = 0,求得 p = 0.7
极大似然估计 MLE 的推导:
- 假设数据是满足独立同分布的一组抽样
- MLE 对参数 θ 的估计:
经验风险最小化
经验风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低。
经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。
- 缺点:这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
- 这里举个逻辑回归(LR)处理二分类问题的例子:
- 线性回归产生预测值
- 使用非线性的激活函数 sigmoid 使预测值的取值范围变为 [0, 1]
- 可以将其视为类 1 的后验概率估计 ,即点 x 属于类别 1 的概率
- 逻辑回归的代价函数:
- 若样本标签为 1,样本 x 预测正确(预测为类别 1 )的概率:
- 若样本标签为 0,样本 x 预测正确(预测为类别 0 )的概率:
- 因此,样本 x 的正确预测概率可以合并写成:
使用极大似然估计根据给定的训练集估计出参数 w,使得整体概率最大化(似然函数(整体概率)是对所有训练集样本的概率的连乘):
注意:上式有个前提:对于训练集的 n 个样本,它们是独立同分布的。只有满足这个前提,似然函数才能写成连乘的形式,L(w) 才能称作是样本总体的似然函数
为了简化运算,两边取对数:
- 上面要求的是使 l(w) 最大的 w,在 l(w) 前面加上负号,就得到了代价函数/损失函数(求最小):
- 就是交叉熵损失函数(LogLoss)
利用梯度下降法求参数:
sigmoid 的导数:
- 梯度下降(利用负梯度信息):
- 因此梯度下降法更新权重时:
- 是第 j 个特征的权重, 是第 i 个样本的第 j 个特征