自信息和熵

假设对一个随机变量信息论-熵 - 图1 (取值集合为信息论-熵 - 图2 ，概率分布为信息论-熵 - 图3 ) 进行编码，自信息信息论-熵 - 图4 是变量信息论-熵 - 图5 时的信息量或编码长度，定义为：
信息论-熵 - 图6
那么随机变量信息论-熵 - 图7 的平均编码长度，即熵定义为：
信息论-熵 - 图8
熵是一个随机变量的评价编码长度，即自信息的数学期望。熵越高，则随机变量的信息越多；熵越低，则信息越少。对于一个确定的信息，比如某个变量的概率为 1，那么其熵为 0，信息量为 0 。

联合熵和条件熵

对于两个随机变量信息论-熵 - 图9 和信息论-熵 - 图10 ，假设信息论-熵 - 图11 取值集合为信息论-熵 - 图12 ；信息论-熵 - 图13 取值为信息论-熵 - 图14 ，其联合概率分布满足信息论-熵 - 图15 ，则信息论-熵 - 图16 和信息论-熵 - 图17 的联合熵为
信息论-熵 - 图18
信息论-熵 - 图19 和信息论-熵 - 图20 的条件熵
信息论-熵 - 图21
也可写为：
信息论-熵 - 图22

互信息

互信息（Mutual Information）是衡量已知一个变量时，另一变量的不确定性的减少程度。两个离散随机变量信息论-熵 - 图23 和信息论-熵 - 图24 的互信息定义为
信息论-熵 - 图25
互信息的性质为
信息论-熵 - 图26
如果信息论-熵 - 图27 和信息论-熵 - 图28 相互独立，即信息论-熵 - 图29 不对信息论-熵 - 图30 提供任何信息，反之亦然，因此它们的互信息为 0 。

交叉熵和散度

对应分布为信息论-熵 - 图31 的随机变量，熵信息论-熵 - 图32 表示其最优编码长度。交叉熵（Cross entropy）是按照概率分布信息论-熵 - 图33 的最优编码对真实分布为信息论-熵 - 图34 的信息进行编码的长度，定义为：
信息论-熵 - 图35
在给定信息论-熵 - 图36 的情况下，如果信息论-熵 - 图37 和信息论-熵 - 图38 越接近，交叉熵越小；如果越远则越大。
KL散度（Kullback-Leibler Divergence），也叫 KL 距离或相对熵，是用概率分布信息论-熵 - 图39 来近似信息论-熵 - 图40 时所造成的信息损失量。KL按照概率分布信息论-熵 - 图41 的最优编码对真实分布为信息论-熵 - 图42 的信息进行编码，其平均编码长度信息论-熵 - 图43 和信息论-熵 - 图44 的最优平均编码长度信息论-熵 - 图45 之间的差异。对于离散概率分布信息论-熵 - 图46 和信息论-熵 - 图47 ，从信息论-熵 - 图48 到信息论-熵 - 图49 的 KL 散度定义为
信息论-熵 - 图50
KL散度总是非负的，信息论-熵 - 图51 。只有当信息论-熵 - 图52 时，信息论-熵 - 图53 。如果两个分布越接近，KL 散度越小。

JS 散度

JS 散度（Jensen-shanon Divergence）是一种对称的衡量两个分布相似度的度量方式，定义为：
信息论-熵 - 图54
其中信息论-熵 - 图55 。
JS 散度是 KL 散度一种改进。但两种散度有存在一个问题，即如果两个分布 p,q 个分布没有重叠或者重叠非常少时，KL 散度和 JS 散度都很难衡量两个分布的距离。