基本术语

数据

  • 数据集:100个西瓜
  • 样本:1个西瓜
  • 特征向量:把数据集中的特征用向量表示;
    • 样本空间:属性上的取值
      • 颜色、大小、敲起来的声音
    • 维度:特征的个数;
  • 属性
    • 甜度

模型

  • 有监督学习:训练数据有标记信息
    • 分类:判断好瓜还是坏瓜(离散值);
      • 二分类
      • 多分类
    • 回归:判断成熟程度(连续值,如成熟度为0.98);
  • 无监督学习:训练数据没有标记信息
    • 聚类

测试

  • 测试样本
  • 泛化能力

归纳偏好

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上的等效假设所迷惑,而无法产生确定的学习结果。

“奥卡姆剃刀” (Occam’s razor) 是一种常用的、自然科学研究中最基本的原则,即”若有多个假设与观察一致,则选最简单的那个。

“没有免费午餐”定理(No Free Lunch Theorem,简称NFL定理)说明所有的学习算法的期望性能是相同的。我们只关注自己正在解决的问题,希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。脱离具体问题,空泛谈论“什么学习算法更好”毫无意义。