2.1 经验误差与过拟合

m个样本,a个分类错误: 错误率:
精度 = 1 - 错误率: 精度:

误差:样本真实输出与预测输出之间的差异
image.png

image.png

  • 过拟合:学习机器把训练样本学习的“太好”,会导致泛化性下降,也就是面对新样本时,效果不佳

    • 学习能力过于强大,解决办法:
      1. 优化目标加正则项
      2. 早些停止
  • 欠拟合:与过拟合相反,训练不够时。

    • 学习能力不足,解决办法:
      1. 加大学习

现实中,往往有多种学习算法可供选择,甚至同一算法不同的参数配置时,也会产生不同模型,如何选择,即“模型选择”。理想解决方案是对候选模型泛化误差进行评估,然后选择泛化误差最小的模型。

2.2 评估方法

  • 通过“测试集”来测试学习机器对新样本的判别能力,然后以测试集上的“测试误差”作为“泛化误差”的近似。
  • 测试样本:
  1. 从样本真实分布中独立同分布采样
  2. 与训练集尽可能互斥(未出现,未使用过的)
  • 但是,我们只有一个包含m个样例的数据集D,如何做到既要训练,又要测试?

2.2.1 留出法

  • 直接将数据集D划分为两个互斥集合,训练集S,测试集T。第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图3
  • 训练/测试集划分要尽可能保持数据分布的一致性。比如在分类任务中要保持样本的类别比例相似。
  • 一般若干次随机划分,重复试验平均值。
  • 训练/测试样本比例通常为2:1~4:1。

    2.2.2 交叉验证法

    将数据集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图4分层采样划分为k个大小相似的互斥子集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图5,每个子集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图6都尽可能与数据分布一致。每次用k-1个子集的并集作为训练集,余下子集作为测试集。最后返回k个测试结果的均值。又称“k折交叉验证”。k通常取10,称为10折交叉验证。为减少因样本不同引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终结果是这p次k折交叉验证结果的均值。常见“10次10折交叉验证”
    image.png
    特例:留一法:数据集D中包含m个样本,令k=m,则每次只留1个测试。留一法不受随机样本划分方式的影响。

  • 结果准确

  • 数据量较大时,计算量太大

    2.2.3 自助法

    以自助采样法为基础,给定包含m个样本的数据集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图8,有放回的采样第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图9:每次从第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图10中随机选取一个样本,放入第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图11中,然后该样本在第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图12中仍保留,使得该样本下次采样也可以被采到;重复第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图13次,得到包含第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图14个样本的数据集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图15第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图16中有一部分在第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图17中重复出现,有一部分从未出现)
    样本在第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图18次采样中始终不被采到的概率:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图19,所以,数据集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图20中大约有第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图21d的样本未出现在训练集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图22中,第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图23用作测试集。
    实际评估的模型与期望评估的模型都使用第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图24个训练样本,而我们仍有数据总量约为第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图25的没有在训练集中出现,而用于测试,又称“包外估计”

  • 使用场合:数据量小,难以有效划分训练/测试集。

  • 此外,能产生多个不同的训练集,对集成学习有益。
  • 然而,改变了原始分布,引入了估计偏差


2.2.4 调参与最终模型

参数: 1.超参数——>调节参数 2.模型参数

算法都有些参数需要设定,参数配置不同,模型性能不同 ——> “参数调节”“调参”
调参与算法选择本质上是一致的:不同配置得到不同模型,把对应最好的模型参数作为结果。
image.png
image.png

2.3 性能度量

用来衡量模型泛化能力的评价标准。

预测任务中,样例集第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图28,其中第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图29是实例第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图30的真实标记。要估计学习器第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图31的性能,就要把预测结果第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图32与真实标记第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图33比较。
回归任务最常用的性能度量是“均方误差”:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图34

2.3.1 错误率与精度

错误率:分错样本占样本总数的比例。
KJ]@YLML8}5SOVBH%6W($1O.jpg
精度:分对样本占样本总数的比例。
image.png

2.3.2 查准率、查全率与F1

真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真正例)

查准率:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图37 (准不准,竖向相加) 查全率:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图38(全不全,横向相加)

查准率、查全率是一对矛盾的量。一般而言,查准率高,查全率低;查准率低,查全率高。

根据预测结果对样例排序,排前面的“最可能”是正例的样本,排后面的“最不可能”是正例的样本。 按此顺序逐个把样本作为正例进行预测,计算当前的P,R值,得到P-R曲线,称为“P-R图”,如下:

image.png
若一个学习器的P-R曲线被另一个完全包住,则后者的性能优于前者。如:A>C
而A、B不能随意下结论,有以下两种方法:

  1. 对比曲线下的面积大小,但不好估算
  2. 综合考虑查准率、查全率的性能度量。最优阈值的确定方法:
    1. 平衡点:查准率 = 查全率 的取值
    2. F1度量:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图40
    3. F1度量更一般形式:由于存在一些情况中,对查准率,查全率重视程度不同:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图41
      1. - ![](https://cdn.nlark.com/yuque/__latex/6c772936260bf7b0a4ce16c629752dc3.svg#card=math&code=%7B%5Cbeta%7D%3C1&height=18&width=40),查准率更重要
      2. - ![](https://cdn.nlark.com/yuque/__latex/d70a61ce121e694fb7108b1d167c10ad.svg#card=math&code=%7B%5Cbeta%7D%3D1&height=18&width=40)退化为F1
      3. - ![](https://cdn.nlark.com/yuque/__latex/0ceb6f8b0acef6732bbb5174c48d9c5f.svg#card=math&code=%7B%5Cbeta%7D%3E1&height=18&width=40),查全率更重要
      • 第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图42是基于查准率与查全率的调和平均定义的:QQ截图20200412150507.png
        • 与算数平均第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图44和几何平均第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图45相比,调和平均更重视较小值。
      • 第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图46则是加权调和平均:QQ截图20200412150917.png

        很多时候有多个二分类混淆矩阵,希望在n个二分类混淆矩阵上综合考虑查准率,查全率。

image.png

2.3.3 ROC与AOC

很多学习器是为测试样本产生一个实值或概率预测,将其与分类阈值threshold作比较,大于阈值为正类,小于阈值为反类。假如将实值或概率排序,“最可能”是正例排最前,“最不可能”是正例排最后,分类过程相当于在这个排序中以某个“截断点 cut point”将样本进行分类。不同任务,设定不同截断点。若更注重“查准率”则靠前;注重“查全率”则靠后。
根据学习器预测结果对样例排序,按此顺序逐个把样本作为正例预测,每次计算两个值:
纵轴“真正例率”:QQ截图20200412150212.png
横轴“假正例率”:QQ截图20200412150220.png

绘图过程:给定m+个正例,m-个反例

  1. 根据预测排序,然后将分类阈值设为最大,即把所有样例均预测为反例,此时(0,0)
  2. 将分类阈值依次设为每个样例预测值,依次将每个样例划分为正例,设前一个标记点坐标为(x,y)
  3. 当前若为真正例,坐标:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图51;当前若为假正例,坐标:第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图52

image.png
学习器比较时,若一个包住另一个,则可说前者优于后者。若有交叉,可比较ROC曲线下的面积AUC
image.png

问:为什么用梯形公式,不用矩形公式? 答:如果有几个预测概率相同的正反样例,出现对角线,就会用梯形公式。 image.png

2.3.4 代价敏感错误率与代价曲线

为权衡不同类型错误所造成的的不同损失,可将错误赋予“非均等代价”(unequal cost)。

以二分问题为例,设定一个“代价矩阵”(cost matrix)
image.png
损失程度相对越大,cost与cost值差别越大。一般对比其值,如 5:1 = 50:10

“代价敏感”(cost-sensitive)错误率为:
image.png

2.5 偏差与方差

  1. ![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591234628-fa769eba-dbba-46f2-8d80-e8c476358808.png#align=left&display=inline&height=52&name=image.png&originHeight=77&originWidth=816&size=13638&status=done&style=none&width=552)<br /> ![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591278325-812c2feb-8e47-463e-9ee8-02af510978f7.png#align=left&display=inline&height=45&name=image.png&originHeight=71&originWidth=875&size=16722&status=done&style=none&width=556)<br />![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591301316-b603e20a-f5db-44b3-a1b3-f8b94180f441.png#align=left&display=inline&height=49&name=image.png&originHeight=74&originWidth=806&size=12442&status=done&style=none&width=537)<br /> ![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591330936-9f3de924-d08f-48f5-88de-78d353135dc4.png#align=left&display=inline&height=46&name=image.png&originHeight=66&originWidth=764&size=13061&status=done&style=none&width=527)

泛化误差可分解为偏差、方差与噪声之和。
image.png)V79@_IFUV}KNU(6Z2`4QO3.png