自信息和熵
假设对一个随机变量 (取值集合为
,概率分布为
) 进行编码,自信息
是变量
时的信息量或编码长度,定义为:
那么随机变量 的平均编码长度,即熵定义为:
熵是一个随机变量的评价编码长度,即自信息的数学期望。熵越高,则随机变量的信息越多;熵越低,则信息越少。对于一个确定的信息,比如某个变量的概率为 1,那么其熵为 0, 信息量为 0 。
联合熵和条件熵
对于两个随机变量 和
,假设
取值集合为
;
取值为
,其联合概率分布满足
,则
和
的联合熵为
和
的条件熵
也可写为:
互信息
互信息(Mutual Information)是衡量已知一个变量时,另一变量的不确定性的减少程度。两个离散随机变量 和
的互信息定义为
互信息的性质为
如果 和
相互独立,即
不对
提供任何信息,反之亦然,因此它们的互信息为 0 。
交叉熵和散度
对应分布为 的随机变量,熵
表示其最优编码长度。交叉熵(Cross entropy)是按照概率分布
的最优编码对真实分布为
的信息进行编码的长度,定义为:
在给定 的情况下,如果
和
越接近,交叉熵越小;如果越远则越大。
KL散度(Kullback-Leibler Divergence),也叫 KL 距离或相对熵,是用概率分布 来近似
时所造成的信息损失量。KL按照概率分布
的最优编码对真实分布为
的信息进行编码,其平均编码长度
和
的最优平均编码长度
之间的差异。对于离散概率分布
和
,从
到
的 KL 散度定义为
KL散度总是非负的, 。只有当
时,
。如果两个分布越接近,KL 散度越小。
JS 散度
JS 散度(Jensen-shanon Divergence)是一种对称的衡量两个分布相似度的度量方式,定义为:
其中 。
JS 散度是 KL 散度一种改进。但两种散度有存在一个问题,即如果两个分布 p,q 个分布没有重叠或者重叠非常少时,KL 散度和 JS 散度都很难衡量两个分布的距离。
