1.K-Means

1.1API介绍

  1. - estimator = sklearn.cluster.KMeans(n_clusters=8)
  2. - 参数n_clusters
  3. - 簇心数,缺省值8
  4. - 方法:
  5. - estimator.fit(x)
  6. - estimator.predict(x)
  7. - estimator.fit_predict(x)
  8. - 计算簇心并预测每个样本属于哪个类别,相当于先fitpredict

1.2.评估方法

  1. 1. 误差平方和SSE
  2. 1. 越小越好
  3. 1. 拐点法(肘部法):下降率突然变缓处,认为是最佳K
  4. 2. SC,[-1,-1]值越大越好
  5. 2. CH,越大越好:追求簇心少,同时获得较好聚类效果

1.3.改进

  1. 1. Canopy
  2. 1. 通过绘制同心圆,进行k值选择刷选
  3. 1. 带参数t1,t2
  4. 2. K-means++
  5. 1. 保证下一个簇心距离当前簇心最远
  6. 3. 二分k-means
  7. 1. 分割数据,设置SSE阈值,不满足继续分割
  8. 4. K-medoids:抗噪音
  9. 4. Kernel k-means:映射到高维
  10. 4. ISODATA:动态簇心数
  11. 4. Mini batch k-means:大数据分批聚类