1.聚类简介

1.1聚类的本质

划分类别(是一个迭代的过程)
类别内的相似度大,类别外的相似度小。

1.2聚类算法对比

同一聚类算法在不同的数据分布上聚类的效果不同。
参照sklearn
密度聚类DBScan
高斯混合
普聚类

1.3应用场景

升维/降维:把聚类的结果作为样本集的特征。
异常值检测
事物间的潜在关系

2.衡量相似度的方法

以相似度为依据来聚成一类Cluster。
将样本特征进行数值化/量化,抽象成高维空间中的点,计算点之间的距离。
补充脑图
计算距离要做归一化处理

2.1 欧式距离等:连续型数据

2.2 余弦距离:文本

常用来衡量文本的相似度。

2.3 jaccard相似系数

jaccard距离

3. KMeans算法

3.1 kmeans聚类流程

k:k个中心点
means:求cluster中点的均值,重新确定新的中心点。
假设数据点符合同方差的高斯分布。
初始聚类中心不一样,最后聚类结果可能不一样。

3.2 K的大小

3.2.1 loss损失

3.2.2 肘部法

3.2.3 Canopy聚类

用canopy选中心,再用k-means做聚类。

3.3 中心点的选择:KMediods算法

中位数
抗噪能力,受异常值影响小。

4. Bisecting KMeans(二分K均值)

K-Means之后再进一步校正

5.K-Means++

提前选好合适的中心点
概率化选择

6.层次聚类

6.1分裂法

距离最大的点作为初始中心点

6.2凝聚法

距离最小的形成cluster,如果小于阈值,再合并
Selective Search

7.密度聚类DBScan

Density Based
定义Cluster:密度相连的点的最大集合。
直接密度可达
密度相连

8.谱聚类

构图、切图
相似度矩阵
RatioCut + KMeans

9.聚类效果的评估

9.1给定标签的评估

9.1.1 Given Label

9.1.2 RI兰德系数和ARI

ARI:Adjust Rand Index
类似于分类效果评估指标中的准确率(Accuracy)

9.1.3 AMI

9.2非给定标签的评估

9.2.1 轮廓系数

结合了内聚度和分离度