性能度量
聚类是将样本集划分为若干不想交的子集,即样本簇。那么,什么样的聚类结果比较好呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。换言之,聚类结果的“簇内相似度”高且“簇间相似度”低。
聚类性能度量大致有两大类,一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”;另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”。
外部指标
Jaccard系数(Jaccard Coefficient, JC):
FM指数(Fowlkes and Mallows Index, FMI):
Rand指数(Rand Index, RI):
显然,上述性能度量的结果值均在区间,值越大越好
内部指标
DB指数(Davies-Bouldin Index, DBI):
显然,DBI的值越小越好,而DI则相反,值越大越好