NJU2020 Fall 机器学习导论期末笔记 - 第二讲基本术语和模型评估 - 《学在NJU》

基本术语

根据标记的取值

根据标记的完整程度

最理想的就是学习到概念
假设空间：所有的可能假设
版本空间：和训练集一致的假设集合
归纳偏好：学习过程中对某种类型假设的偏好称作归纳偏好

根本目标就是泛化能力
未来的样本未知，假设和现在的历史数据分布一致来逼近泛化能力

有一个算法好，那么一定有另一个算法在另一个问题上更好
没有免费的午餐，脱离具体问题讨论算法无意义

目标：模型在未来数据的表现最好
未来数据得不到，利用假设根据历史性能来选择

过拟合
训练样本学习的太好，把一些训练样本的特征作为所有样本的一般性质，导致泛化能力下降
欠拟合
对训练样本的一般性质尚未学习好

留出法，切割为训练和测试集
1. 需要保证切割的一致性，分布一致
2. 需要保证类别一致
3. 多次随机划分，结果取平均值
交叉验证法，切割k-1作为训练，1作为测试（K折训练是每一次从头开始训练还是叠加训练？如果是在选择算法的时候使用K折，然后把结果平均作为最后的结果。那如果是确定了算法需要求一个最好的结果呢）
1. 如果k=样本数目，那就是留一法。不受随机划分影响，结果准确，计算复杂
自助法，boostrapping，有放回的取m次，m无穷大时会有0.368的样本永远不被选中
1. 数据集小，难以划分的时候可以用
2. 在集成学习中好用
3. 一般在数据够的时候，使用留出法和交叉验证

在验证集上调参

性能度量是衡量模型泛化能力的评价标准，反映了任务需求；
使用不同的性能度量往往会导致不同的评判结果

回归任务最常使用的就是均方误差
分类任务用精度和错误率，错误率是分错的占所有样本的比例，精度是分对的占所有的总数

根据学习器的预测结果按正例可能性大小对样例进行排序，并逐个把样本作为正例进行预测，则可以得到查准率-查全率曲线，简称“P-R曲线”用平衡点来比较。更加常用的就是F1
查准：正确正例/模型认为的正例
查全：正确正例/总的正例

类似于PR曲线，可以用每一个样本的预测值作为阈值计算结果，然后横坐标是假正率，纵坐标是真正例率

在预测的时候不同类型的错误带来的代价不同，因此为了权衡，赋予非均等代价

没看懂
二项检验

T检验

交叉验证 T检验

简单的说，偏差是训练集上模型输出和标注的差，体现了训练是否充分
方差是同样大小的训练数据得到的结果的差距，体现的是一种数据对模型的扰动
高方差低偏差：过拟合
低方差高偏差：欠拟合