基本术语
数据
- 数据集:100个西瓜
- 样本:1个西瓜
- 特征向量:把数据集中的特征用向量表示;
- 样本空间:属性上的取值
- 颜色、大小、敲起来的声音
- 维度:特征的个数;
- 样本空间:属性上的取值
- 属性
- 甜度
模型
- 有监督学习:训练数据有标记信息
- 分类:判断好瓜还是坏瓜(离散值);
- 二分类
- 多分类
- 回归:判断成熟程度(连续值,如成熟度为0.98);
- 分类:判断好瓜还是坏瓜(离散值);
- 无监督学习:训练数据没有标记信息
- 聚类
测试
- 测试样本
- 泛化能力
归纳偏好
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上的等效假设所迷惑,而无法产生确定的学习结果。
“奥卡姆剃刀” (Occam’s razor) 是一种常用的、自然科学研究中最基本的原则,即”若有多个假设与观察一致,则选最简单的那个。
“没有免费午餐”定理(No Free Lunch Theorem,简称NFL定理)说明所有的学习算法的期望性能是相同的。我们只关注自己正在解决的问题,希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。脱离具体问题,空泛谈论“什么学习算法更好”毫无意义。
