1. 信息量

信息量用于衡量某个事件交叉熵 - 图1发生时带来的信息量,事件交叉熵 - 图2发生的概率交叉熵 - 图3越低,则该事件发生时带来的信息量越大,信息量定义如下:
交叉熵 - 图4

2. 熵

信息量是对单个事件而言的,但实际中一件事常有多种可能,如对于天气包含天晴、多云、下雨等,此时就要用到熵。信息熵描述整个系统内样本的混乱程度(越混乱则熵越大),是对所有可能发生的事件产生的信息量的期望。假设事件X共n种可能的情况,交叉熵 - 图5发生的概率为交叉熵 - 图6,则事件交叉熵 - 图7的熵交叉熵 - 图8为:
交叉熵 - 图9

3. 相对熵

相对熵又称KL散度,用于反映同一个随机样本交叉熵 - 图10的两个分布交叉熵 - 图11交叉熵 - 图12之间的差异。其中交叉熵 - 图13常表示样本的真实分布(如[1, 0, 0, 0]),交叉熵 - 图14表示预测的分布(如[0.7, 0.1, 0.1, 0.1]),则KL散度就可以计算两个分布之间的差异:
交叉熵 - 图15

4. 交叉熵

对KL散度公式变换如下:
交叉熵 - 图16
前半部分就是事件交叉熵 - 图17真实分布的熵交叉熵 - 图18,后半部分是真实分布与预测分布的交叉熵。在机器学习中,我们可使用KL散度表示交叉熵 - 图19交叉熵 - 图20之间的差距,但因为前半部分真实分布的熵交叉熵 - 图21是常量,不会在参数更新过程改变,所以在优化过程中只需要关注交叉熵即可。交叉熵定义如下:
交叉熵 - 图22