1. 信息量

信息量用于衡量某个事件交叉熵 - 图1 发生时带来的信息量，事件交叉熵 - 图2 发生的概率交叉熵 - 图3 越低，则该事件发生时带来的信息量越大，信息量定义如下：
交叉熵 - 图4

2. 熵

信息量是对单个事件而言的，但实际中一件事常有多种可能，如对于天气包含天晴、多云、下雨等，此时就要用到熵。信息熵描述整个系统内样本的混乱程度（越混乱则熵越大），是对所有可能发生的事件产生的信息量的期望。假设事件X共n种可能的情况，交叉熵 - 图5 发生的概率为交叉熵 - 图6 ，则事件交叉熵 - 图7 的熵交叉熵 - 图8 为：
交叉熵 - 图9

3. 相对熵

相对熵又称KL散度，用于反映同一个随机样本交叉熵 - 图10 的两个分布交叉熵 - 图11 和交叉熵 - 图12 之间的差异。其中交叉熵 - 图13 常表示样本的真实分布（如[1, 0, 0, 0]），交叉熵 - 图14 表示预测的分布（如[0.7, 0.1, 0.1, 0.1]），则KL散度就可以计算两个分布之间的差异：
交叉熵 - 图15

4. 交叉熵

对KL散度公式变换如下：
交叉熵 - 图16
前半部分就是事件交叉熵 - 图17 真实分布的熵交叉熵 - 图18 ，后半部分是真实分布与预测分布的交叉熵。在机器学习中，我们可使用KL散度表示交叉熵 - 图19 和交叉熵 - 图20 之间的差距，但因为前半部分真实分布的熵交叉熵 - 图21 是常量，不会在参数更新过程改变，所以在优化过程中只需要关注交叉熵即可。交叉熵定义如下：
交叉熵 - 图22