2 K-邻近

2.1 简介

是一种是分类算法，采用一些已经标签的点去标记未标签的点。这个算法的原理是基于相似度.

A method for classifying cases based on their similarity to other cases
Cases that are near each other are said to be “beighbors”
Based on simiar cases with same class labels are near each other

如下图根据个别自变量age和Income去判别类别。方法是去找最邻近的那个点。
截屏2020-11-28 下午8.32.10.png

2.2 算法过程

（1）为K找到一个值
（2）计算未知点与所有已知点的距离（相似度）
（3）在训练数据中找到与未知点最邻近的K的观察值(Select the K-observations in the training data that are nearest to unknown data point)
（4）Predict the response of the unknown data point using the most popular response value from the K-nearest neighbors

问题是：如何选择一个正确的K，如何计算距离

2.3 选择一个正确的K值

过低的K值可能会导致模型的高复杂度，也会导致模型过拟合。方法是在不同K值下计算模型的准确率，选择最佳准确率的K值。
截屏2020-11-28 下午8.49.45.png

3 分类评估指标

（1）分类准确率Classification accuracy

（2）Jaccard Index
说白了就是如下两个圆圈重叠是大小。越大越好。
截屏2020-11-28 下午8.58.10.png
（3）F1-score
F1分数度量，在《机器学习-周志华》书的32-32页详解。Confusion matrix 是混淆矩阵。
Precision又称为查准率
Recall又称为查全率
F1-score越高准确率越高
截屏2020-11-28 下午9.02.31.png

（4）Log Loss
在输出概率是0~1之间去评价分类器的好坏。
如下举例计算Log loss。
Log loss越小越好。
截屏2020-11-28 下午9.17.16.png

机器学习修炼

【ML 吴恩达】7 分类之K-邻近算法及评估指标

目录

1 分类

2 K-邻近

2.1 简介

2.2 算法过程

2.3 选择一个正确的K值

3 分类评估指标