聚类任务

目标：将数据样本划分为若干个通常不相交的“簇”(cluster)
即可找寻数据内在的分布结构。也作为分类学习任务中提取特征、判断类别的重要支撑

性能度量

亦称“基于原型的聚类”(prototype-based clustering)
假设：聚类结构能通过一组原型刻画
过程：先对原型初始化，然后对原型进行迭代更新求解
代表：k均值聚类，学习向量量化(LVQ)，高斯混合聚类

亦称“基于密度的聚类”(density-based clustering)
假设：聚类结构能通过样本分布的紧密程度确定
过程：从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇
代表：DBSCAN, OPTICS, DENCLUE

核心对象：邻域的样本多到一定程度
密度直达：邻域样本和核心对象，且可以传递
密度可达：传递成为密度可达
密度相连：不同方向
聚类的时候就随机选择一个核心对象，把密度可达的认为是一个等价类
然后删除这个等价类的成员，重复操作

假设：能够产生不同粒度的聚类结果
过程：在不同层次对数据集进行划分，从而形成树形的聚类结构
代表：AGNES (自底向上)，DIANA (自顶向下)

假设每一个样本都是一个簇，然后合并最接近的两个样本