关于熵的一些概念 - 图1


随机变量关于熵的一些概念 - 图2,概率分布关于熵的一些概念 - 图3,(非真实)概率分布关于熵的一些概念 - 图4

定义:
关于熵的一些概念 - 图5


交叉熵

定义:
关于熵的一些概念 - 图6
性质:

  • 非对称性:关于熵的一些概念 - 图7

为什么分类任务中不用MSE损失而用交叉熵损失?

  • 交叉熵使用softmax函数在梯度下降时能避免MSE学习速率降低的问题,因为MSE偏导值在输出概率值接近0或者接近1的时候非常小,这可能会造成模型刚开始训练时,偏导值几乎消失,而使用交叉熵作为损失函数则不会导致这样的情况发生
  • 损失函数目标角度讲,MSE认为平均总比有倾向性要好,但实际类别应具备不同倾向

image.png
(图片来源:https://zhuanlan.zhihu.com/p/35707643


KL散度(相对熵)

定义:
关于熵的一些概念 - 图9
性质:

  • 非负性:关于熵的一些概念 - 图10
  • 非对称性:关于熵的一些概念 - 图11

注:关于熵的一些概念 - 图12为常量时,KL散度和交叉熵基本等价,由于有监督训练中标签信息不会发生变化故其熵不会发生变化,此时KL散度和交叉熵作为损失函数理论上等价。而对于一些无监督训练如不确定性估计,预测的结果会发生变化熵也会变化,此时KL散度和交叉熵是有区别的(常用KL散度)。


条件熵

随机变量关于熵的一些概念 - 图13关于熵的一些概念 - 图14,边缘概率分布关于熵的一些概念 - 图15关于熵的一些概念 - 图16,联合概率分布关于熵的一些概念 - 图17

定义:
关于熵的一些概念 - 图18
性质:

  • 关于熵的一些概念 - 图19

互信息

定义:
关于熵的一些概念 - 图20

性质:

  • 对称性:关于熵的一些概念 - 图21
  • 半正定:关于熵的一些概念 - 图22

参考