机器学习（ML算法篇） - review 聚类算法 - 《机器学习》

review 聚类算法 - 图1

算法	优点	缺点
k-means	1. 该算法时间复杂度为O(tkmn)，（其中，t为迭代次数，k为簇的数目，m为记录数，n为维数）与样本数量线性相关，所以，对于处理大数据集合，该算法非常高效，且伸缩性较好；	1. 聚类中心的个数K需要事先给定 1. Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。(kmeans++针对该点进行了优化，即初始的聚类中心之间的相互距离要尽可能的远) 1. 结果不一定是全局最优，只能保证局部最优(因为采取的是启发式的迭代方法) 1. 对于非凸(球形)不规则的数据集比较难收敛 1. 对噪音和异常点比较的敏感。
DBSCAN	1. 可以处理任何形状的聚类簇、能够检测异常点	1. 需要给定数据点的半径r和最少数量m、对输入参数较敏感。

DBSCAN密度聚类算法