随机选取K个样本点,作为聚类中心,然后遍历数据,找到每个数据与哪个聚类中心较近,则该数据划分为对应的类。每遍历完一次数据就使用求均值的方法得到每个类的聚类中心;直到聚类中心不再发生变化,K-means聚类算法已经完成分类任务。

缺点

  1. 分类结果会受初始选取的K-means算法 - 图1个点的位置影响
  2. 分类结果容易受到离群点的影响

    优点

  3. 对于大数据集,具有相对的可伸缩性和高效性

  4. 对于大数据集,计算复杂度低K-means算法 - 图2
  5. 算法虽然经常以局部最优结束,但是往往满足需求

K-means的优化

  1. 对数据进行归一化处理,避免某一维度的方差过大产生影响
  2. 对离群点数据进行处理
  3. 合理选择K值
    1. 手肘法