距离度量应该满足以下基本性质:

  1. 正定性:距离度量 - 图1
  2. 同一性:距离度量 - 图2当且仅当距离度量 - 图3
  3. 对称性:距离度量 - 图4
  4. 三角不等式(直递性):距离度量 - 图5

距离的度量方法

属性分为有序属性和无序属性,有序属性的属性值有明确的大小关系,无序属性的属性值没有明确的大小关系,因此这两类属性应该有不同的计算方法。

有序属性

  1. 欧式距离

距离度量 - 图6

  1. 曼哈顿距离

距离度量 - 图7

  1. 闵可夫斯基距离

距离度量 - 图8

无序属性

  1. VDM(Value Difference Metric)

距离度量 - 图9
其中,距离度量 - 图10表示在属性距离度量 - 图11上取值为距离度量 - 图12的样本数,距离度量 - 图13表示在第距离度量 - 图14个样本簇中在属性距离度量 - 图15上取值为距离度量 - 图16的样本数,距离度量 - 图17为样本簇数。

混合属性

将闵可夫斯基距离和VDM结合即可处理混合属性,假定有距离度量 - 图18个有序属性,距离度量 - 图19个无序属性,不失一般性,令有序属性排列在无序属性之前,则
距离度量 - 图20
当样本空间中不同属性的重要性不同时,可以使用“加权距离”,例如加权的闵可夫斯基距离:
距离度量 - 图21
其中,距离度量 - 图22

非度量距离

满足正定性、同一性、对称性,但是不满足直递性(三角不等式)的距离计算公式为非度量距离。

  1. 余弦距离

距离度量 - 图23
距离度量 - 图24