交叉熵:越小越接近真实分布 - 图1定义:
用来衡量在给定的真实分布下,使用非真实分布消除不确定性所需要付出努力的大小
消除不确定性: 预测与真实的误差
a1(1).png
真实分布[0,0,1,0]唯一的那一项对应预测分布那一项的信息量,概率越接近与1,信息量越确定
a4(1).pnga2(1).png

损失函数用交叉熵替换:

a4(1).png

相对熵:用来衡量俩个概率分布(预测分布,真实分布)之间的差异

相对熵=交叉熵-熵

a5(2).png