1. KL距离公式

KL距离:用来预测的概率和真实的概率之间的距离,度量概率分布的差异。
image.png 其中,image.png

相对熵

相对熵(relative entropy, 或称Kullback-Leiblerdivergence, KL 距离)。
两个概率分布p(x) 和q(x) 的相对熵定义为:
KL距离(相对熵) - 图3, 该定义中约定KL距离(相对熵) - 图4
相对熵常被用以衡量两个随机分布的差距。
当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。
Selection_001.png

2.KL距离的特性

  • 非对称性

【问题】以下哪个q的概率分布和p(x)的分布最接近?(即KL距离最小

image.png
根据KL距离公式,image.png
寻找相对于p(x)最近的分布,p(x)保持不变,要使KL距离最小,则需要 image.png越大越好。
因为image.png为负数,
image.png取值较大时,image.png越大越好;当image.png较小时,image.png取值对距离影响较小。
所以,此时,q1(x)的分布和p(x)的分布更接近。

当KL距离公式为:image.png时,
因为image.png 只和q自身有关,要使KL距离最小,则需要image.png越大越好。
image.png取值较大时,image.png取值对距离影响较小;当image.png较小时,image.png取值越小越好。

【结论】为了使KL距离更小,当KL(p,q)计算距离时,q要尽可能拟合p的大值;当KL(q,p)计算距离时,q要尽可能拟合p的小值。