基本术语

数据

数据集：100个西瓜
样本：1个西瓜
特征向量：把数据集中的特征用向量表示；
- 样本空间：属性上的取值
  - 颜色、大小、敲起来的声音
- 维度：特征的个数；
属性
- 甜度

模型

有监督学习：训练数据有标记信息
- 分类：判断好瓜还是坏瓜（离散值）；
  - 二分类
  - 多分类
- 回归：判断成熟程度（连续值，如成熟度为0.98）；
无监督学习：训练数据没有标记信息
- 聚类

测试

测试样本
泛化能力

归纳偏好

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上的等效假设所迷惑，而无法产生确定的学习结果。

“奥卡姆剃刀” (Occam’s razor) 是一种常用的、自然科学研究中最基本的原则，即”若有多个假设与观察一致，则选最简单的那个。

“没有免费午餐”定理（No Free Lunch Theorem，简称NFL定理）说明所有的学习算法的期望性能是相同的。我们只关注自己正在解决的问题，希望为它找到一个解决方案，至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案，我们并不关心。脱离具体问题，空泛谈论“什么学习算法更好”毫无意义。

1.绪论

基本术语

数据

模型

测试

归纳偏好