image.png

核心思想

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 (最早是由Cover和Hart提出的一种分类算法 )
image.png

计算方法

两个样本的距离可以通过如下公式计算,又叫欧式距离 比如说,a(a1,a2,a3),b(b1,b2,b3) ,由于各特征尺度不同,应当首先进行表转化处理。
image.png

遇到的问题

1、k值取多大有什么影响?
k值取很小:容易受异常点影响
k值取很大:容易受最近数据太多导致比例变化
2、性能问题

参考

https://www.kesci.com/home/project/5c2720a85986fa002c5c0ba7