一、模型
三要素:距离度量、k值的选择、分类决策规则
二、距离度量
特征空间中的两个实例点的距离是两个实例点相似程度的反映。
距离:
- p=1 对应曼哈顿距离
- p=2 对应欧氏距离
- 任意p对应闵科夫斯基距离
范数是对向量或者矩阵的度量,是一个标量,这个里面两个点之间的Lp距离可以认为是两个点坐标差值的p范数。
三、k值的选择
- 关于k大小对预测结果的影响,书中给的参考文献是ESL,这本书还有个先导书叫ISL。
- 通过交叉验证选取最优k,算是超参数
- 二分类问题,k选择奇数有助于避免平票
四、分类决策规则
误分类率
如果分类损失函数是0-1损失,误分类率最低即经验风险最小。
