核心思想
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 (最早是由Cover和Hart提出的一种分类算法 )
计算方法
两个样本的距离可以通过如下公式计算,又叫欧式距离 比如说,a(a1,a2,a3),b(b1,b2,b3) ,由于各特征尺度不同,应当首先进行表转化处理。
遇到的问题
1、k值取多大有什么影响?
k值取很小:容易受异常点影响
k值取很大:容易受最近数据太多导致比例变化
2、性能问题