经验误差与过拟合

错误率(error rate)指的是分类错误的样本占样本总数的比例。如果m个样本中有a个样本错误,
错误率表示为:2. 模型的评估与选择【西瓜书阅读笔记】 - 图1
精度(accuracy)表示为:2. 模型的评估与选择【西瓜书阅读笔记】 - 图2

我们把学习器实际预测的输出与样本的真实输出之间的差异称为“误差”(error)。学习器在训练集上的误差叫“训练误差”(training error) 或 经验误差(empirical error),在新样本上的误差叫“泛化误差”(generalization error)。

image.png

评估方法

对于一个包含 2. 模型的评估与选择【西瓜书阅读笔记】 - 图4个样例的数据集2. 模型的评估与选择【西瓜书阅读笔记】 - 图5,对 2. 模型的评估与选择【西瓜书阅读笔记】 - 图6 进行处理,从中产生训练集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图7 和 测试集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图8

留出法

留出法(hold-out) 直接将数据集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图9 划分为两个互斥的集合,其中一个当做训练集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图10 , 另一个当做测试集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图11
2. 模型的评估与选择【西瓜书阅读笔记】 - 图12
在使用留出法时,一般采用若干次随机划分,重复实验评估后获取平均值作为结果。一般是取 2/3 ~ 4/5 的样本作为训练集,剩余样本做测试集。

交叉验证法

交叉验证法(cross validation) 先将数据集 D 划分为 k 个大小相似的互斥子集,
即:2. 模型的评估与选择【西瓜书阅读笔记】 - 图13,
然后每次使用 k - 1 个子集的并集作为训练集,余下的那个子集作为测试集;这样就得到 k 组训练/测试集,从而进行 k 次训练和测试,最终返回的是 k 个测试结果的均值。交叉验证的结果稳定性和保真性取决于 k 的取值,称为 “k折交叉验证”(k-fold cross validation),k 通常取 10。image.png
假定数据集 D 中包含 m 个样本,若令 k = m,则得到了交叉验证法的一个特例:留一法(Leave-One-Out, LOO) 。留一法不受随机样本划分方式的影响,因为 m 个样本只要一个唯一的方式划分为 m 个子集,每一个子集包含一个样本。留一法的评估结果往往是比较准确,但是当数据集比较大时,开销也比较大。

自助法

自助法是直接以自助采样法为基础,给定包含 m 个样本数据集 D, 我们对它进行采样产生数据集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图15:每次随机从 D 中挑选一个样本拷贝进2. 模型的评估与选择【西瓜书阅读笔记】 - 图16,然后将该样本放回初始数据集 D ,这个过程重复执行 m 次后,我们就得到一个包含 m 个样本的数据集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图17, 这就是自助采样的结果。
m 次采集中始终没被采到的概率是 2. 模型的评估与选择【西瓜书阅读笔记】 - 图18, 取极限得到:
2. 模型的评估与选择【西瓜书阅读笔记】 - 图19
即通过自助采样,初始数据集 D 中约有 36.8% 的样本没有出现在采集数据集 2. 模型的评估与选择【西瓜书阅读笔记】 - 图20 中,我们可以将2. 模型的评估与选择【西瓜书阅读笔记】 - 图21作为训练集,2. 模型的评估与选择【西瓜书阅读笔记】 - 图22 \ 2. 模型的评估与选择【西瓜书阅读笔记】 - 图23 用作测试集。

性能度量

学习模型适用于新样本的能力,称为泛化(generalization)能力。
对学习器的泛化能性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure)。
在预测任务中,给定样例数据集2. 模型的评估与选择【西瓜书阅读笔记】 - 图24,其中 2. 模型的评估与选择【西瓜书阅读笔记】 - 图25 是示例 2. 模型的评估与选择【西瓜书阅读笔记】 - 图26 的真实标记,要评估学习器 2. 模型的评估与选择【西瓜书阅读笔记】 - 图27 的性能,就要把学习器预测结果 2. 模型的评估与选择【西瓜书阅读笔记】 - 图28 与真实标记 2. 模型的评估与选择【西瓜书阅读笔记】 - 图29 进行比较。

回归任务最常用的性能度量是“均方误差”(mean squared error)
2. 模型的评估与选择【西瓜书阅读笔记】 - 图30
更一般的,对于数据的分布 2. 模型的评估与选择【西瓜书阅读笔记】 - 图31 和概率密度函数 2. 模型的评估与选择【西瓜书阅读笔记】 - 图32 ,均方误差可以表示为
2. 模型的评估与选择【西瓜书阅读笔记】 - 图33

错误率与精度

错误率和精度是分类任务中最常用的两种性能度量,既适用于二分类任务,也适用于多分类任务。
错误率是分类错误的样本数占样本总数的比例,精度是分类正确的样本数占样本总数的比例,对于样本 D,分类错误率定义为:
2. 模型的评估与选择【西瓜书阅读笔记】 - 图34
其中,2. 模型的评估与选择【西瓜书阅读笔记】 - 图35 表示指示函数,若 · 为真取值 1,否则取 0 。
精度定义为:
2. 模型的评估与选择【西瓜书阅读笔记】 - 图36
更一般的,对于数据分布 2. 模型的评估与选择【西瓜书阅读笔记】 - 图37 和概率密度函数 2. 模型的评估与选择【西瓜书阅读笔记】 - 图38,错误率和精度可分别描述为:
2. 模型的评估与选择【西瓜书阅读笔记】 - 图39
2. 模型的评估与选择【西瓜书阅读笔记】 - 图40

查准率、查全率与F1

“查准率”(precision) 也称准确率,“查全率”(recall) 也称“召回率”。

对于二分类问题,我们根据真实类别与学习器的预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negation) 四种形式,分别使用 TP、FP、TN、FN 表示样例数,则 TP + FP + TN + FN = 样例总数。
image.png
查准率 P 与 查全率 R 分别表示为
2. 模型的评估与选择【西瓜书阅读笔记】 - 图42
2. 模型的评估与选择【西瓜书阅读笔记】 - 图43