基本术语

数据

  • 特征,⼜称为属性
  • 属性值:特征的离散取值,或者,连续取值;
  • 样本维度(Dimensionality):特征个数
  • 特征张成的空间:属性空间/特征空间/输⼊空间
  • 标记张成的空间:标记空间/输出空间
  • ⽰例(Instance)/样本(Sample):⼀个对象的输⼊(⽐如,⼀个⻄⽠的描述)⽰例不含标记
  • 样例(Example):⽰例+标记
  • 训练集 = ⼀组训练样例
  • 测试集 = ⼀组测试样例

任务

根据标记的取值

  1. 分类。标记是离散的
  2. 回归。标记是连续的
  3. 聚类。标记是空的,自动分组

根据标记的完整程度

  1. 有监督学习
  2. 无监督学习
  3. 半监督学习

概念学习

最理想的就是学习到概念
假设空间:所有的可能假设
版本空间:和训练集一致的假设集合
归纳偏好:学习过程中对某种类型假设的偏好称作归纳偏好

根本目标就是泛化能力
未来的样本未知,假设和现在的历史数据分布一致来逼近泛化能力

有一个算法好,那么一定有另一个算法在另一个问题上更好
没有免费的午餐,脱离具体问题讨论算法无意义

模型评估

目标:模型在未来数据的表现最好
未来数据得不到,利用假设根据历史性能来选择

经验性能

过拟合
训练样本学习的太好,把一些训练样本的特征作为所有样本的一般性质,导致泛化能力下降
欠拟合
对训练样本的一般性质尚未学习好

经验性能估计

  1. 留出法,切割为训练和测试集
    1. 需要保证切割的一致性,分布一致
    2. 需要保证类别一致
    3. 多次随机划分,结果取平均值
  2. 交叉验证法,切割k-1作为训练,1作为测试(K折训练是每一次从头开始训练还是叠加训练?如果是在选择算法的时候使用K折,然后把结果平均作为最后的结果。那如果是确定了算法需要求一个最好的结果呢)
    1. 如果k=样本数目,那就是留一法。不受随机划分影响,结果准确,计算复杂
  3. 自助法,boostrapping,有放回的取m次,m无穷大时会有0.368的样本永远不被选中
    1. 数据集小,难以划分的时候可以用
    2. 在集成学习中好用
    3. 一般在数据够的时候,使用留出法和交叉验证

在验证集上调参

性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求;
使用不同的性能度量往往会导致不同的评判结果

回归任务最常使用的就是均方误差
分类任务用精度和错误率,错误率是分错的占所有样本的比例,精度是分对的占所有的总数

根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,则可以得到查准率-查全率曲线,简称“P-R曲线”用平衡点来比较。更加常用的就是F1
查准:正确正例/模型认为的正例
查全:正确正例/总的正例
image.png
image.png

类似于PR曲线,可以用每一个样本的预测值作为阈值计算结果,然后横坐标是假正率,纵坐标是真正例率

  1. 若一条曲线包住另一条,包住的好
  2. 若有交叉,AUC大的好,即面积大的好

在预测的时候不同类型的错误带来的代价不同,因此为了权衡,赋予非均等代价

比较检验

没看懂
二项检验

T检验

交叉验证 T检验

偏差和方差

简单的说,偏差是训练集上模型输出和标注的差,体现了训练是否充分
方差是同样大小的训练数据得到的结果的差距,体现的是一种数据对模型的扰动
高方差低偏差:过拟合
低方差高偏差:欠拟合