无监督学习 - 聚类 - 《机器学习》

1.聚类简介

划分类别（是一个迭代的过程）
类别内的相似度大，类别外的相似度小。

同一聚类算法在不同的数据分布上聚类的效果不同。
参照sklearn
密度聚类DBScan
高斯混合
普聚类

升维/降维：把聚类的结果作为样本集的特征。
异常值检测
事物间的潜在关系

以相似度为依据来聚成一类Cluster。
将样本特征进行数值化/量化，抽象成高维空间中的点，计算点之间的距离。
补充脑图
计算距离要做归一化处理

常用来衡量文本的相似度。

jaccard距离

k：k个中心点
means：求cluster中点的均值，重新确定新的中心点。
假设数据点符合同方差的高斯分布。
初始聚类中心不一样，最后聚类结果可能不一样。

用canopy选中心，再用k-means做聚类。

中位数
抗噪能力，受异常值影响小。

K-Means之后再进一步校正

提前选好合适的中心点
概率化选择

距离最大的点作为初始中心点

距离最小的形成cluster，如果小于阈值，再合并
Selective Search

Density Based
定义Cluster：密度相连的点的最大集合。
直接密度可达
密度相连

构图、切图
相似度矩阵
RatioCut + KMeans

ARI：Adjust Rand Index
类似于分类效果评估指标中的准确率（Accuracy）

结合了内聚度和分离度