无监督学习-聚类 - 《算法分享》

距离计算
性能度量
- 外部指标
- 内部指标
聚类算法
- 原型聚类
- 生活感悟

之前介绍的分类任务使用的训练集都是有类别标签的，使用有标签的数据训练分类器的过程为有监督学习，接下来我们介绍无监督学习，即训练样本的类别信息是未知的，无监督学习的目标是对无标记训练样本的学习来揭示数据内在的性质及其规律。最有代表性的任务就是聚类。比如给我们一堆大佬和菜鸡写的文章，但我们不知道这些文章到底是出自谁之手，我们希望设计一个算法，将其聚成两个类别，分别用来表示大佬和菜鸡写的文章，这样的任务就是一个无监督聚类任务。因此，聚类就是将 无监督学习-聚类 - 图1 个无标记样本划分为 无监督学习-聚类 - 图2 个不相等的簇，用于寻找数据内在的分布结构。
聚类比较重要的一点就是如何去衡量样本之间的内在联系，这个联系可以使用“样本特征属性之间的距离”来进行评估，常用的距离如下：

距离计算

根据特征属性具有有序性和无序性引出两种距离计算公式，有序的属性比如{1,2,3}，无序的属性如{汽车,飞机,轮船}。
常用的可以用于有序属性的距离有：
闵可夫斯基距离：即p范数，无监督学习-聚类 - 图3 ，对无监督学习-聚类 - 图4 时，满足以上性质。
无监督学习-聚类 - 图5 时，为欧几里得距离；无监督学习-聚类 - 图6 时，为曼哈顿距离。
针对无序属性的距离有：
VDM距离无监督学习-聚类 - 图7 ，即每个簇在属性无监督学习-聚类 - 图8 上取值为无监督学习-聚类 - 图9 的样本数的占比与每个簇在属性无监督学习-聚类 - 图10 上取值为无监督学习-聚类 - 图11 的样本数的占比之差的无监督学习-聚类 - 图12 次方。
对于其它的距离：
闵可夫斯基距离和CDM距离可以混合，用于处理有序和无序属性
可以用加权闵可夫斯基距离
其它还有内积距离，余弦距离，JS散度等等。
通常聚类时我们是基于某种形式的距离来定义“相似度度量”，距离越大，相似度越小。