认识KNN算法 - 《工程与算法》

摘自：「百度百科」

邻近算法或者说K最近邻（KNN）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

「寻找最近的K个数据，推测新数据的分类」
这是KNN的基础思想，要判断一个新数据的类别就看他的邻居都是谁。

假设任务是分类水果，已知分类有「西瓜」和「苹果」。

其中KNN中的「K」指的是「K个」邻居。例如「K = 3」则表示离样本「距离」最近的「3个」样本来判断样本类别。

距离（传送门）则可以选择「曼哈顿距离、欧式距离、切比雪夫距离」中的符合实际业务的算法。

对于KNN来说「K」的取值非常重要。

K取受「问题自身和数据集大小」决定，不同问题K取值不同。可以参考经验或「均方根误差，RMSE(传送门)」。

总结来说，KNN算法就是在定义好「距离和K值」前提下，对于任意「新样本」将其「分类为」与该样本「距离最近」的「K个样本」中「类别最多」的那个类别。

认识KNN算法 - 图3