聚类任务

目标:将数据样本划分为若干个通常不相交的“簇”(cluster)
即可找寻数据内在的分布结构。也作为分类学习任务中提取特征、判断类别的重要支撑

性能度量

image.png

距离计算

image.png

原型聚类

亦称“基于原型的聚类”(prototype-based clustering)
假设:聚类结构能通过一组原型刻画
过程:先对原型初始化,然后对原型进行迭代更新求解
代表:k均值聚类,学习向量量化(LVQ),高斯混合聚类

Kmeans

image.png

LVQ

image.png

密度聚类

亦称“基于密度的聚类”(density-based clustering)
假设:聚类结构能通过样本分布的紧密程度确定
过程:从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇
代表:DBSCAN, OPTICS, DENCLUE

DBSCAN

核心对象:邻域的样本多到一定程度
密度直达:邻域样本和核心对象,且可以传递
密度可达:传递成为密度可达
密度相连:不同方向
聚类的时候就随机选择一个核心对象,把密度可达的认为是一个等价类
然后删除这个等价类的成员,重复操作

层次聚类

假设:能够产生不同粒度的聚类结果
过程:在不同层次对数据集进行划分,从而形成树形的聚类结构
代表:AGNES (自底向上),DIANA (自顶向下)

AGNES

假设每一个样本都是一个簇,然后合并最接近的两个样本