1.聚类简介
1.1聚类的本质
划分类别(是一个迭代的过程)
类别内的相似度大,类别外的相似度小。
1.2聚类算法对比
同一聚类算法在不同的数据分布上聚类的效果不同。
参照sklearn
密度聚类DBScan
高斯混合
普聚类
1.3应用场景
升维/降维:把聚类的结果作为样本集的特征。
异常值检测
事物间的潜在关系
2.衡量相似度的方法
以相似度为依据来聚成一类Cluster。
将样本特征进行数值化/量化,抽象成高维空间中的点,计算点之间的距离。
补充脑图
计算距离要做归一化处理
2.1 欧式距离等:连续型数据
2.2 余弦距离:文本
2.3 jaccard相似系数
3. KMeans算法
3.1 kmeans聚类流程
k:k个中心点
means:求cluster中点的均值,重新确定新的中心点。
假设数据点符合同方差的高斯分布。
初始聚类中心不一样,最后聚类结果可能不一样。
3.2 K的大小
3.2.1 loss损失
3.2.2 肘部法
3.2.3 Canopy聚类
3.3 中心点的选择:KMediods算法
4. Bisecting KMeans(二分K均值)
5.K-Means++
6.层次聚类
6.1分裂法
6.2凝聚法
距离最小的形成cluster,如果小于阈值,再合并
Selective Search
7.密度聚类DBScan
Density Based
定义Cluster:密度相连的点的最大集合。
直接密度可达
密度相连
8.谱聚类
9.聚类效果的评估
9.1给定标签的评估
9.1.1 Given Label
9.1.2 RI兰德系数和ARI
ARI:Adjust Rand Index
类似于分类效果评估指标中的准确率(Accuracy)
9.1.3 AMI
9.2非给定标签的评估
9.2.1 轮廓系数
结合了内聚度和分离度