1. 信息量
信息量用于衡量某个事件发生时带来的信息量,事件
发生的概率
越低,则该事件发生时带来的信息量越大,信息量定义如下:
2. 熵
信息量是对单个事件而言的,但实际中一件事常有多种可能,如对于天气包含天晴、多云、下雨等,此时就要用到熵。信息熵描述整个系统内样本的混乱程度(越混乱则熵越大),是对所有可能发生的事件产生的信息量的期望。假设事件X共n种可能的情况,发生的概率为
,则事件
的熵
为:
3. 相对熵
相对熵又称KL散度,用于反映同一个随机样本的两个分布
和
之间的差异。其中
常表示样本的真实分布(如[1, 0, 0, 0]),
表示预测的分布(如[0.7, 0.1, 0.1, 0.1]),则KL散度就可以计算两个分布之间的差异:
4. 交叉熵
对KL散度公式变换如下:
前半部分就是事件真实分布的熵
,后半部分是真实分布与预测分布的交叉熵。在机器学习中,我们可使用KL散度表示
和
之间的差距,但因为前半部分真实分布的熵
是常量,不会在参数更新过程改变,所以在优化过程中只需要关注交叉熵即可。交叉熵定义如下: