自信息和熵

假设对一个随机变量 信息论-熵 - 图1 (取值集合为 信息论-熵 - 图2 ,概率分布为 信息论-熵 - 图3) 进行编码,自信息 信息论-熵 - 图4 是变量 信息论-熵 - 图5 时的信息量或编码长度,定义为:
信息论-熵 - 图6
那么随机变量 信息论-熵 - 图7 的平均编码长度,即熵定义为:
信息论-熵 - 图8
熵是一个随机变量的评价编码长度,即自信息的数学期望。熵越高,则随机变量的信息越多;熵越低,则信息越少。对于一个确定的信息,比如某个变量的概率为 1,那么其熵为 0, 信息量为 0 。

联合熵和条件熵

对于两个随机变量 信息论-熵 - 图9信息论-熵 - 图10,假设 信息论-熵 - 图11 取值集合为 信息论-熵 - 图12信息论-熵 - 图13 取值为 信息论-熵 - 图14,其联合概率分布满足 信息论-熵 - 图15,则 信息论-熵 - 图16信息论-熵 - 图17 的联合熵为
信息论-熵 - 图18
信息论-熵 - 图19信息论-熵 - 图20 的条件熵
信息论-熵 - 图21
也可写为:
信息论-熵 - 图22

互信息

互信息(Mutual Information)是衡量已知一个变量时,另一变量的不确定性的减少程度。两个离散随机变量 信息论-熵 - 图23信息论-熵 - 图24 的互信息定义为
信息论-熵 - 图25
互信息的性质为
信息论-熵 - 图26
如果 信息论-熵 - 图27信息论-熵 - 图28 相互独立,即 信息论-熵 - 图29 不对 信息论-熵 - 图30 提供任何信息,反之亦然,因此它们的互信息为 0 。

交叉熵和散度

对应分布为 信息论-熵 - 图31的随机变量,熵 信息论-熵 - 图32 表示其最优编码长度。交叉熵(Cross entropy)是按照概率分布 信息论-熵 - 图33 的最优编码对真实分布为 信息论-熵 - 图34 的信息进行编码的长度,定义为:
信息论-熵 - 图35
在给定 信息论-熵 - 图36 的情况下,如果 信息论-熵 - 图37信息论-熵 - 图38 越接近,交叉熵越小;如果越远则越大。
KL散度(Kullback-Leibler Divergence),也叫 KL 距离或相对熵,是用概率分布 信息论-熵 - 图39 来近似 信息论-熵 - 图40 时所造成的信息损失量。KL按照概率分布 信息论-熵 - 图41 的最优编码对真实分布为 信息论-熵 - 图42 的信息进行编码,其平均编码长度 信息论-熵 - 图43信息论-熵 - 图44的最优平均编码长度 信息论-熵 - 图45 之间的差异。对于离散概率分布 信息论-熵 - 图46信息论-熵 - 图47 ,从 信息论-熵 - 图48信息论-熵 - 图49 的 KL 散度定义为
信息论-熵 - 图50
KL散度总是非负的, 信息论-熵 - 图51。只有当 信息论-熵 - 图52 时,信息论-熵 - 图53。如果两个分布越接近,KL 散度越小。

JS 散度

JS 散度(Jensen-shanon Divergence)是一种对称的衡量两个分布相似度的度量方式,定义为:
信息论-熵 - 图54
其中 信息论-熵 - 图55
JS 散度是 KL 散度一种改进。但两种散度有存在一个问题,即如果两个分布 p,q 个分布没有重叠或者重叠非常少时,KL 散度和 JS 散度都很难衡量两个分布的距离。