频率学派们认为世界是确定的。他们直接为事件本身建模，也就是说事件在多次重复实验中趋于一个稳定的值 p，这个值就是该事件的概率。

他们认为模型参数是个定值，希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法——极大似然估计（MLE），这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

最大似然估计：

现在已经拿到了很多个样本（你的数据集中所有因变量），这些样本值已经实现，最大似然估计就是去找到那个（组）参数估计值，使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了，其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化，是个连乘积，只要取对数，就变成了线性加总。此时通过对参数求导数，并令一阶导数为零，就可以通过解方程（组），得到最大似然估计值。
最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

极大似然估计 MLE

极大似然估计（MLE）是频率学派模型参数估计的常用方法。

似然：可以简单理解为概率、可能性
极大似然：也就是说要最大化该事件发生的概率/可能性

极大似然估计：根据已知样本，希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。

例子：假如一个盒子里面有红黑共 10 个球，每次有放回的取出，取了 10 次，结果为 7 次黑球，3 次红球。问拿出黑球的概率 p 是多少？

解答：“取了 10 次，结果为 7 次黑球，3 次红球”这个事件 A 是已经发生的，极大似然估计就是要让模型对这个整体事件 A 的预估概率最大。而这里的参数是拿出黑球的概率 p，我们要预估参数 p 使得事件 A 的概率最大。
事件 A 的概率是每个子事件的概率乘积，P(A)=
对上面的公式，两边取对数转换为累加：
求导，令导数为 0，求极值对应的 p：
- 令导数 = 0，求得 p = 0.7

极大似然估计 MLE 的推导：

假设数据是满足独立同分布的一组抽样
MLE 对参数 θ 的估计：

经验风险最小化

经验风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低。

经验风险最小化可以看作是采用了极大似然的参数评估方法，更侧重从数据中学习模型的潜在参数，而且是只看重数据样本本身。

缺点：这样在数据样本缺失的情况下，很容易管中窥豹，模型发生过拟合的状态

当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

这里举个逻辑回归（LR）处理二分类问题的例子：

线性回归产生预测值
使用非线性的激活函数 sigmoid 使预测值的取值范围变为 [0, 1]
- 可以将其视为类 1 的后验概率估计 ，即点 x 属于类别 1 的概率

逻辑回归的代价函数：

若样本标签为 1，样本 x 预测正确（预测为类别 1 ）的概率：
若样本标签为 0，样本 x 预测正确（预测为类别 0 ）的概率：
因此，样本 x 的正确预测概率可以合并写成：
使用极大似然估计根据给定的训练集估计出参数 w，使得整体概率最大化（似然函数（整体概率）是对所有训练集样本的概率的连乘）：

注意：上式有个前提：对于训练集的 n 个样本，它们是独立同分布的。只有满足这个前提，似然函数才能写成连乘的形式，L(w) 才能称作是样本总体的似然函数
为了简化运算，两边取对数：
上面要求的是使 l(w) 最大的 w，在 l(w) 前面加上负号，就得到了代价函数/损失函数（求最小）：
- 就是交叉熵损失函数（LogLoss）

利用梯度下降法求参数：

sigmoid 的导数：

梯度下降（利用负梯度信息）：
因此梯度下降法更新权重时：
- 是第 j 个特征的权重，是第 i 个样本的第 j 个特征