1.K-Means
1.1API介绍
- estimator = sklearn.cluster.KMeans(n_clusters=8)- 参数n_clusters- 簇心数,缺省值8- 方法:- estimator.fit(x)- estimator.predict(x)- estimator.fit_predict(x)- 计算簇心并预测每个样本属于哪个类别,相当于先fit再predict
1.2.评估方法
1. 误差平方和SSE1. 越小越好1. 拐点法(肘部法):下降率突然变缓处,认为是最佳K值2. SC,[-1,-1]值越大越好2. CH,越大越好:追求簇心少,同时获得较好聚类效果
1.3.改进
1. Canopy1. 通过绘制同心圆,进行k值选择刷选1. 带参数t1,t22. K-means++1. 保证下一个簇心距离当前簇心最远3. 二分k-means1. 分割数据,设置SSE阈值,不满足继续分割4. K-medoids:抗噪音4. Kernel k-means:映射到高维4. ISODATA:动态簇心数4. Mini batch k-means:大数据分批聚类
