2.1 经验误差与过拟合

m个样本，a个分类错误：	错误率：
精度 = 1 - 错误率：	精度：

误差：样本真实输出与预测输出之间的差异

过拟合：学习机器把训练样本学习的“太好”，会导致泛化性下降，也就是面对新样本时，效果不佳
- 学习能力过于强大，解决办法：
  1. 优化目标加正则项
  2. 早些停止
欠拟合：与过拟合相反，训练不够时。
- 学习能力不足，解决办法：
  1. 加大学习

现实中，往往有多种学习算法可供选择，甚至同一算法不同的参数配置时，也会产生不同模型，如何选择，即“模型选择”。理想解决方案是对候选模型泛化误差进行评估，然后选择泛化误差最小的模型。

2.2 评估方法

通过“测试集”来测试学习机器对新样本的判别能力，然后以测试集上的“测试误差”作为“泛化误差”的近似。
测试样本：

从样本真实分布中独立同分布采样
与训练集尽可能互斥（未出现，未使用过的）

但是，我们只有一个包含m个样例的数据集D，如何做到既要训练，又要测试？

2.2.1 留出法

直接将数据集D划分为两个互斥集合，训练集S，测试集T。
训练/测试集划分要尽可能保持数据分布的一致性。比如在分类任务中要保持样本的类别比例相似。
一般若干次随机划分，重复试验平均值。
训练/测试样本比例通常为2:1~4:1。

2.2.2 交叉验证法
将数据集分层采样划分为k个大小相似的互斥子集，每个子集都尽可能与数据分布一致。每次用k-1个子集的并集作为训练集，余下子集作为测试集。最后返回k个测试结果的均值。又称“k折交叉验证”。k通常取10，称为10折交叉验证。为减少因样本不同引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终结果是这p次k折交叉验证结果的均值。常见“10次10折交叉验证”

特例：留一法：数据集D中包含m个样本，令k=m，则每次只留1个测试。留一法不受随机样本划分方式的影响。
结果准确
数据量较大时，计算量太大

2.2.3 自助法
以自助采样法为基础，给定包含m个样本的数据集，有放回的采样：每次从中随机选取一个样本，放入中，然后该样本在中仍保留，使得该样本下次采样也可以被采到；重复次，得到包含个样本的数据集（中有一部分在中重复出现，有一部分从未出现）
样本在次采样中始终不被采到的概率：，所以，数据集中大约有d的样本未出现在训练集中，用作测试集。
实际评估的模型与期望评估的模型都使用个训练样本，而我们仍有数据总量约为的没有在训练集中出现，而用于测试，又称“包外估计”
使用场合：数据量小，难以有效划分训练/测试集。
此外，能产生多个不同的训练集，对集成学习有益。
然而，改变了原始分布，引入了估计偏差

2.2.4 调参与最终模型

参数： 1.超参数——>调节参数 2.模型参数

算法都有些参数需要设定，参数配置不同，模型性能不同 ——> “参数调节”“调参”
调参与算法选择本质上是一致的：不同配置得到不同模型，把对应最好的模型参数作为结果。

2.3 性能度量

用来衡量模型泛化能力的评价标准。

预测任务中，样例集第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图28 ，其中第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图29 是实例第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图30 的真实标记。要估计学习器第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图31 的性能，就要把预测结果第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图32 与真实标记第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图33 比较。
回归任务最常用的性能度量是“均方误差”：第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图34

2.3.1 错误率与精度

错误率：分错样本占样本总数的比例。
KJ]@YLML8}5SOVBH%6W($1O.jpg
精度：分对样本占样本总数的比例。

2.3.2 查准率、查全率与F1

真实情况	预测结果
	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真正例）

查准率：第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图37 （准不准，竖向相加）查全率：第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图38 （全不全，横向相加）

查准率、查全率是一对矛盾的量。一般而言，查准率高，查全率低；查准率低，查全率高。

根据预测结果对样例排序，排前面的“最可能”是正例的样本，排后面的“最不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测，计算当前的P,R值，得到P-R曲线，称为“P-R图”，如下：

若一个学习器的P-R曲线被另一个完全包住，则后者的性能优于前者。如：A>C
而A、B不能随意下结论，有以下两种方法：

对比曲线下的面积大小，但不好估算

综合考虑查准率、查全率的性能度量。最优阈值的确定方法：

平衡点：查准率 = 查全率的取值
F1度量：

F1度量更一般形式：由于存在一些情况中，对查准率，查全率重视程度不同：第二章模型评估与选择ヾ(≧ ▽ ≦)ゝ - 图41

           - ![](https://cdn.nlark.com/yuque/__latex/6c772936260bf7b0a4ce16c629752dc3.svg#card=math&code=%7B%5Cbeta%7D%3C1&height=18&width=40)，查准率更重要
           - ![](https://cdn.nlark.com/yuque/__latex/d70a61ce121e694fb7108b1d167c10ad.svg#card=math&code=%7B%5Cbeta%7D%3D1&height=18&width=40)退化为F1
           - ![](https://cdn.nlark.com/yuque/__latex/0ceb6f8b0acef6732bbb5174c48d9c5f.svg#card=math&code=%7B%5Cbeta%7D%3E1&height=18&width=40)，查全率更重要

是基于查准率与查全率的调和平均定义的：
- 与算数平均和几何平均相比，调和平均更重视较小值。
则是加权调和平均:

很多时候有多个二分类混淆矩阵，希望在n个二分类混淆矩阵上综合考虑查准率，查全率。

2.3.3 ROC与AOC

很多学习器是为测试样本产生一个实值或概率预测，将其与分类阈值threshold作比较，大于阈值为正类，小于阈值为反类。假如将实值或概率排序，“最可能”是正例排最前，“最不可能”是正例排最后，分类过程相当于在这个排序中以某个“截断点 cut point”将样本进行分类。不同任务，设定不同截断点。若更注重“查准率”则靠前；注重“查全率”则靠后。
根据学习器预测结果对样例排序，按此顺序逐个把样本作为正例预测，每次计算两个值：
纵轴“真正例率”： QQ截图20200412150212.png
横轴“假正例率”： QQ截图20200412150220.png

绘图过程：给定m+个正例，m-个反例

根据预测排序，然后将分类阈值设为最大，即把所有样例均预测为反例，此时（0,0）
将分类阈值依次设为每个样例预测值，依次将每个样例划分为正例，设前一个标记点坐标为（x，y）
当前若为真正例，坐标：；当前若为假正例，坐标：

学习器比较时，若一个包住另一个，则可说前者优于后者。若有交叉，可比较ROC曲线下的面积AUC

问：为什么用梯形公式，不用矩形公式？答：如果有几个预测概率相同的正反样例，出现对角线，就会用梯形公式。

2.3.4 代价敏感错误率与代价曲线

为权衡不同类型错误所造成的的不同损失，可将错误赋予“非均等代价”（unequal cost）。

以二分问题为例，设定一个“代价矩阵”（cost matrix）

损失程度相对越大，cost与cost值差别越大。一般对比其值，如 5:1 = 50:10

“代价敏感”(cost-sensitive)错误率为：

2.5 偏差与方差

![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591234628-fa769eba-dbba-46f2-8d80-e8c476358808.png#align=left&display=inline&height=52&name=image.png&originHeight=77&originWidth=816&size=13638&status=done&style=none&width=552)<br />   ![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591278325-812c2feb-8e47-463e-9ee8-02af510978f7.png#align=left&display=inline&height=45&name=image.png&originHeight=71&originWidth=875&size=16722&status=done&style=none&width=556)<br />![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591301316-b603e20a-f5db-44b3-a1b3-f8b94180f441.png#align=left&display=inline&height=49&name=image.png&originHeight=74&originWidth=806&size=12442&status=done&style=none&width=537)<br />       ![image.png](https://cdn.nlark.com/yuque/0/2020/png/1118250/1586591330936-9f3de924-d08f-48f5-88de-78d353135dc4.png#align=left&display=inline&height=46&name=image.png&originHeight=66&originWidth=764&size=13061&status=done&style=none&width=527)

泛化误差可分解为偏差、方差与噪声之和。
)V79@_IFUV}KNU(6Z2`4QO3.png

第二章 模型评估与选择ヾ(≧ ▽ ≦)ゝ