信息论中的各种熵与KL散度 - 《数学以及机器学习》

信息量
信息
KL散度
交叉熵
条件熵
互信息

信息量

信息论里认为一件事情x如果发生了，那么会给我们提供一定的信息量，而这个信息量的多少是与事件x发生的概率有关。事件x发生的概率越大，则它发生了带来的信息量越少，反之则信息量越大。所以定义信息量：
信息论中的各种熵与KL散度 - 图1
采用对数作为信息的度量的原因是其可加性。定义熵为信息的期望，（事件的概率分布和每个事件的信息量构成了一个随机变量，熵就是这个分布产生的平均信息量，通常我们所讲的熵指的是这个分布所产生的一个数据所代表的信息量，两者是等价的）。对于一个随机变量X，它可能取不同的值。对于一个连续值来讲：
信息论中的各种熵与KL散度 - 图2
对于离散值：
信息论中的各种熵与KL散度 - 图3
熵也可以定义为对一个系统的不确定性的度量，在信息论里，不确定性和信息量的概念是等同的，这可以由信息量的定义看出。对数的底数可变，则熵的单位也随之变化。
以2为底的熵的值即一个系统（或者分布）的不确定性的值为多少比特。可以使用多少比特来确切地描述这个系统的一个状态。

热力学中的熵由玻尔兹曼定义为信息论中的各种熵与KL散度 - 图4 ，其中信息论中的各种熵与KL散度 - 图5 为玻尔兹曼常数，信息论中的各种熵与KL散度 - 图6 为宏观状态中所包含之微观状态数量，也可视作是一个系统混乱程度的度量。与信息论中的熵有一定的联系，将热力学中的系统想象为一个信源，该信源遵循一定的分布产生数据，当分布越均匀时，则产生的数据越随机，可认为信源越混乱。当然，尽管两者之间存在很大的差别，但是都是一种对于不确定性（混乱程度）的度量。

信息

信息是反映事物的形成、关系和差别的东西，它包含于事物的差异之中，而不在事物本身。
凡是在一种情况下能减少不确定性的任何事物都叫信息。

KL散度

KL散度又称相对熵，表示的意思是对于一个随机变量X，其有两种不同的分布p和q，信息论中的各种熵与KL散度 - 图7 表示用p代替q表示X（X的分布由p产生）的分布所可以带来的信息增益的期望，等同于用q表示p需要的额外比特数，同时也可以表示两个分布的相似程度。KL散度越小表示p和q越接近。需要注意的是KL散度不是一个真正意义上的度量或者是距离，因为KL散度是非对称的。
信息论中的各种熵与KL散度 - 图8
ps:如何理解KL散度代表带来的信息增益呢，不管求和符号，分解右边部分,使用简化符号代替，信息论中的各种熵与KL散度 - 图9 ,可以看到括号中的式子表示了q与p的信息量之差，所以KL散度表示了信息增益的期望。可知当p和q的分布相同的时候，KL散度最小。

交叉熵

交叉熵是指，当基于一个“非自然”（相对于“真实”分布p而言）的概率分布q进行编码时，在事件集合中唯一标识一个事件所需要的平均比特数（bit）
信息论中的各种熵与KL散度 - 图10
其实我们可以看到，对KL散度进行分解的话：
信息论中的各种熵与KL散度 - 图11
因为真实分布p的熵不变，所以我们在使用q去逼近p的时候，以KL散度作为两者相似度的评价标准，不需要考虑p的熵，只需要考虑p和q的交叉熵，如此可以简化这个逼近函数。

条件熵

条件熵描述了在一个随机变量信息论中的各种熵与KL散度 - 图12 已知时，随机变量信息论中的各种熵与KL散度 - 图13 的熵为多大，即信息论中的各种熵与KL散度 - 图14 。
信息论中的各种熵与KL散度 - 图15
由于熵与概率的密切关系，并且从条件熵的形式可以看出其与条件概率的形式相似性，贝叶斯定理在熵中也适用。信息论中的各种熵与KL散度 - 图16

互信息

互信息信息论中的各种熵与KL散度 - 图17 衡量两个随机变量之间的依赖程度，与相关系数不同的地方在于互信息不依赖于实际的变量，而只依赖于变量的分布,互信息等同于信息论中的各种熵与KL散度 - 图18 的相似程度，可以用KL散度来衡量两个分布的相似程度。更直观地理解互信息的意义，那就是衡量一个变量的不确定性受另一个变量的影响有多大。
定义：信息论中的各种熵与KL散度 - 图19
推导：
信息论中的各种熵与KL散度 - 图20
从上式可以看出互信息等价于当随机变量X已知时，使得随机变量Y的熵（不确定性）减少了多少。应用熵的贝叶斯定理和条件熵的形式可以对结果进行转换信息论中的各种熵与KL散度 - 图21 。