性能度量

聚类是将样本集聚类分析 - 图1划分为若干不想交的子集,即样本簇。那么,什么样的聚类结果比较好呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。换言之,聚类结果的“簇内相似度”高且“簇间相似度”低。

聚类性能度量大致有两大类,一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。

外部指标

Jaccard系数(Jaccard Coefficient, JC):聚类分析 - 图2

FM指数(Fowlkes and Mallows Index, FMI):聚类分析 - 图3

Rand指数(Rand Index, RI):聚类分析 - 图4

显然,上述性能度量的结果值均在聚类分析 - 图5区间,值越大越好

内部指标

DB指数(Davies-Bouldin Index, DBI)聚类分析 - 图6

Dunn指数(Dunn Index, DI)聚类分析 - 图7

显然,DBI的值越小越好,而DI则相反,值越大越好