一、模型

三要素:距离度量、k值的选择、分类决策规则

二、距离度量

特征空间中的两个实例点的距离是两个实例点相似程度的反映。

3.2 k近邻模型 - 图1距离:3.2 k近邻模型 - 图2

  1. p=1 对应曼哈顿距离
  2. p=2 对应欧氏距离
  3. 任意p对应闵科夫斯基距离

范数是对向量或者矩阵的度量,是一个标量,这个里面两个点之间的Lp距离可以认为是两个点坐标差值的p范数。

三、k值的选择

  1. 关于k大小对预测结果的影响,书中给的参考文献是ESL,这本书还有个先导书叫ISL。
  2. 通过交叉验证选取最优k,算是超参数
  3. 二分类问题,k选择奇数有助于避免平票

四、分类决策规则

误分类率
3.2 k近邻模型 - 图3
如果分类损失函数是0-1损失,误分类率最低即经验风险最小。