距离度量应该满足以下基本性质:
- 正定性:
- 同一性:当且仅当
- 对称性:
- 三角不等式(直递性):
距离的度量方法
属性分为有序属性和无序属性,有序属性的属性值有明确的大小关系,无序属性的属性值没有明确的大小关系,因此这两类属性应该有不同的计算方法。
有序属性
- 欧式距离
- 曼哈顿距离
- 闵可夫斯基距离
无序属性
- VDM(Value Difference Metric)
其中,表示在属性上取值为的样本数,表示在第个样本簇中在属性上取值为的样本数,为样本簇数。
混合属性
将闵可夫斯基距离和VDM结合即可处理混合属性,假定有个有序属性,个无序属性,不失一般性,令有序属性排列在无序属性之前,则
当样本空间中不同属性的重要性不同时,可以使用“加权距离”,例如加权的闵可夫斯基距离:
其中,。
非度量距离
满足正定性、同一性、对称性,但是不满足直递性(三角不等式)的距离计算公式为非度量距离。
- 余弦距离