距离度量(distance measure) 需要满足下列一些基本性质:

    • 非负性:距离计算 - 图1%5Cgeq%200%3B#card=math&code=dist%28x_i%2Cx_j%29%5Cgeq%200%3B&id=BBCOY)
    • 同一性:距离计算 - 图2%3D0#card=math&code=dist%28x_i%2Cx_j%29%3D0&id=ECwQq)当且仅当距离计算 - 图3
    • 对称性:距离计算 - 图4%3Ddist(x_j%2Cx_i)%3B#card=math&code=dist%28x_i%2Cx_j%29%3Ddist%28x_j%2Cx_i%29%3B&id=GD4nU)
    • 直递性:距离计算 - 图5%5Cleq%20dist(x_i%2Cx_k)%2Bdist(x_k%2Cx_j)#card=math&code=dist%28x_i%2Cx_j%29%5Cleq%20dist%28x_i%2Cx_k%29%2Bdist%28x_k%2Cx_j%29&id=E8PJg),即三角不等式,两边之和大于第三边。

    最常用的距离度量方法是 “闵可夫斯基距离”(Minkowski distance)

    距离计算 - 图6%3D%5Cleft(%20%20%20%5Csum%7Bu%3D1%7D%5En%20%7Cx%7Biu%7D-x%7Bju%7D%7C%5Ep%20%5Cright)%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D%0A#card=math&code=dist%7Bmk%7D%28xi%2Cx_j%29%3D%5Cleft%28%20%20%20%5Csum%7Bu%3D1%7D%5En%20%7Cx%7Biu%7D-x%7Bju%7D%7C%5Ep%20%5Cright%29%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D%0A&id=N0wqm)

    当p=1时,闵可夫斯基距离即曼哈顿距离(Manhattan distance)

    距离计算 - 图7%20%3D%20%7C%7Cxi%2Cx_j%7C%7C_1%20%3D%20%5Csum%7Bu%3D1%7D%5En%7Cx%7Biu%7D-x%7Bju%7D%7C%20%20%0A#card=math&code=dist%7Bman%7D%28x_i%2Cx_j%29%20%3D%20%7C%7Cx_i%2Cx_j%7C%7C_1%20%3D%20%5Csum%7Bu%3D1%7D%5En%7Cx%7Biu%7D-x%7Bju%7D%7C%20%20%0A&id=Ew8Ls)

    当p=2时,闵可夫斯基距离即欧氏距离(Euclidean distance)

    距离计算 - 图8%20%3D%20%7C%7Cxi-x_j%7C%7C_2%20%3D%20%5Csqrt%7B%5Csum%7Bu%3D1%7D%5En%20%7Cx%7Biu%7D-x%7Bju%7D%7C%5E2%7D%20%0A#card=math&code=dist%7Bed%7D%28x_i%2Cx_j%29%20%3D%20%7C%7Cx_i-x_j%7C%7C_2%20%3D%20%5Csqrt%7B%5Csum%7Bu%3D1%7D%5En%20%7Cx%7Biu%7D-x%7Bju%7D%7C%5E2%7D%20%0A&id=KVFGR)

    我们知道属性分为两种:连续属性离散属性(有限个取值)。对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形作相应的预处理,例如:归一化等;而对于离散值的属性,需要作下面进一步的处理:

    若属性值之间存在序关系,则可以将其转化为连续值,例如:身高属性“高”“中等”“矮”,可转化为{1, 0.5, 0}。 若属性值之间不存在序关系,则通常将其转化为向量的形式,例如:性别属性“男”“女”,可转化为距离计算 - 图9%2C(0%2C1)%5C%7D#card=math&code=%5C%7B%281%2C0%29%2C%280%2C1%29%5C%7D&id=tALHS)。

    在进行距离度量时,易知连续属性和存在序关系的离散属性都可以直接参与计算,因为它们都可以反映一种程度,我们称其为“有序属性”;而对于不存在序关系的离散属性,我们称其为:“无序属性”,显然无序属性再使用闵可夫斯基距离就行不通了。

    对于无序属性,我们一般采用VDM进行距离的计算,例如:对于离散属性的两个取值 a 和 b,定义:

    距离计算 - 图10%20%3D%20%5Csum%7Bi%3D1%7D%5Ek%5Cleft%7C%5Cfrac%7Bm%7Bu%2Ca%2Ci%7D%7D%7Bm%7Bu%2Ca%7D%7D%20-%20%5Cfrac%7Bm%7Bu%2Cb%2Ci%7D%7D%7Bm%7Bu%2Cb%7D%7D%5Cright%7C%20%2C%20%20i%E8%A1%A8%E7%A4%BA%E7%B0%87%E7%B1%BB%20%20%0A#card=math&code=VDM_p%28a%2Cb%29%20%3D%20%5Csum%7Bi%3D1%7D%5Ek%5Cleft%7C%5Cfrac%7Bm%7Bu%2Ca%2Ci%7D%7D%7Bm%7Bu%2Ca%7D%7D%20-%20%5Cfrac%7Bm%7Bu%2Cb%2Ci%7D%7D%7Bm%7Bu%2Cb%7D%7D%5Cright%7C%20%2C%20%20i%E8%A1%A8%E7%A4%BA%E7%B0%87%E7%B1%BB%20%20%0A&id=S6tsu)

    于是,在计算两个样本之间的距离时,我们可以将闵可夫斯基距离和VDM混合在一起进行计算:

    距离计算 - 图11%20%3D%20%5Cleft(%20%5Csum%7Bu%3D1%7D%5E%7Bn_c%7D%7Cx%7Biu%7D-x%7Bju%7D%7C%5Ep%20%2B%20%5Csum%7Bu%3Duc%2B1%7D%5En%20VDM_p(x%7Biu%7D%2Cx%7Bju%7D)%20%20%5Cright)%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D%20%20%0A#card=math&code=MinkovDM_p%28x_i%2Cx_j%29%20%3D%20%5Cleft%28%20%5Csum%7Bu%3D1%7D%5E%7Bnc%7D%7Cx%7Biu%7D-x%7Bju%7D%7C%5Ep%20%2B%20%5Csum%7Bu%3Duc%2B1%7D%5En%20VDM_p%28x%7Biu%7D%2Cx_%7Bju%7D%29%20%20%5Cright%29%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D%20%20%0A&id=CXC6K)

    若我们定义的距离计算方法是用来度量相似性,例如下面将要讨论的聚类问题,即距离越小,相似性越大,反之距离越大,相似性越小。这时距离的度量方法并不一定需要满足前面所说的四个基本性质,这样的方法称为:非度量距离(non-metric distance)