信息论

信息论从不确定性的角度描述了一个事物所包含的信息量,事件发生的概率越大,所包含的信息量越小,比如“明天太阳从东方升起”所包含的信息量就很小,但“XX号彩票中奖”所包含的信息量就很大。

另外,从编码角度来说,信息论告诉我们如何对消息设计最优编码,以及计算消息的期望长度。

自信息

概率角度

定义一个事件 信息论 - 图1 的自信息为 信息论 - 图2#card=math&code=I%28x%29&id=z8DQH):

信息论 - 图3%3D-%5Clog%20P(x)%0A#card=math&code=I%28X%3Dx%29%3D-%5Clog%20P%28x%29%0A&id=lzyGW)

这里 信息论 - 图4 的底数为2.

举个例子,32支队伍打比赛,如果队伍A夺冠的概率为 信息论 - 图5,那么“队伍A夺冠”包含的自信息就为 信息论 - 图6.

显然,弱队爆冷夺冠所包含的信息量更丰富。

编码角度

信息论 - 图7#card=math&code=I%28x%29&id=Omukd) 描述了符号 x 的最优编码长度,如果符号 x 出现的频率很高,那么我们应该让它的编码长度越短越好。

信息熵

概率角度

自信息只描述一个事件的信息量,要描述一个概率分布的信息量的期望,可以用信息熵表示:

信息论 - 图8%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20I%5Cleft(%20x%20%5Cright)%20%5Cright%5D%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20-%5Clog%20P%5Cleft(%20x%20%5Cright)%20%5Cright%5D%0A#card=math&code=H%5Cleft%28%20X%20%5Cright%29%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20I%5Cleft%28%20x%20%5Cright%29%20%5Cright%5D%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20-%5Clog%20P%5Cleft%28%20x%20%5Cright%29%20%5Cright%5D%0A&id=AhT3n)

还是上面那个例子,如果你要在32支队伍中猜测谁夺冠了,你可以问朋友“冠军是不是在1~16号之中”,那么你最多提问5次就能得知最终的冠军。

如果每支队伍夺冠的概率一样,那么这次比赛的信息熵为 5.

如果有一支队伍100%夺冠,那么整场比赛的信息熵就为0.

一个事件的不确定性越大,其信息熵越大,反而言之,我们也可以通过已知信息来消除不确定性。

编码角度

对于一段消息X,其中每个单词 x 出现的概率服从概率分布 P,我们可以设计一套最优编码,使得整个消息的编码长度最小。

信息论 - 图9#card=math&code=H%5Cleft%28%20X%20%5Cright%29&id=iyvgl) 描述的是一个单词的平均编码长度。

条件熵与互信息

在已知Y的条件下,X的信息熵为:

信息论 - 图10%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%5Cleft(%20x%2Cy%20%5Cright)%7D%5Cleft%5B%20I%5Cleft(%20x%5Cmid%20y%20%5Cright)%20%5Cright%5D%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%5Cleft(%20x%2Cy%20%5Cright)%7D%5Cleft%5B%20-%5Clog%20P%5Cleft(%20x%5Cmid%20y%20%5Cright)%20%5Cright%5D%0A#card=math&code=H%5Cleft%28%20X%5Cmid%20Y%20%5Cright%29%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%5Cleft%28%20x%2Cy%20%5Cright%29%7D%5Cleft%5B%20I%5Cleft%28%20x%5Cmid%20y%20%5Cright%29%20%5Cright%5D%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%5Cleft%28%20x%2Cy%20%5Cright%29%7D%5Cleft%5B%20-%5Clog%20P%5Cleft%28%20x%5Cmid%20y%20%5Cright%29%20%5Cright%5D%0A&id=uI3K3)

互信息描述 X 与 Y 之间相关信息的信息熵:

信息论 - 图11%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%2CY%5Csim%20P%5Cleft(%20x%2Cy%20%5Cright)%7D%5Cleft%5B%20I%5Cleft(%20x%20%5Cright)%20%2BI%5Cleft(%20y%20%5Cright)%20-I%5Cleft(%20x%2Cy%20%5Cright)%20%5Cright%5D%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%2CY%5Csim%20P%5Cleft(%20x%2Cy%20%5Cright)%7D%5Cleft%5B%20%5Clog%20%5Cfrac%7BP%5Cleft(%20x%2Cy%20%5Cright)%7D%7BP%5Cleft(%20x%20%5Cright)%20P%5Cleft(%20y%20%5Cright)%7D%20%5Cright%5D%0A#card=math&code=I%5Cleft%28%20X%3BY%20%5Cright%29%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%2CY%5Csim%20P%5Cleft%28%20x%2Cy%20%5Cright%29%7D%5Cleft%5B%20I%5Cleft%28%20x%20%5Cright%29%20%2BI%5Cleft%28%20y%20%5Cright%29%20-I%5Cleft%28%20x%2Cy%20%5Cright%29%20%5Cright%5D%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%2CY%5Csim%20P%5Cleft%28%20x%2Cy%20%5Cright%29%7D%5Cleft%5B%20%5Clog%20%5Cfrac%7BP%5Cleft%28%20x%2Cy%20%5Cright%29%7D%7BP%5Cleft%28%20x%20%5Cright%29%20P%5Cleft%28%20y%20%5Cright%29%7D%20%5Cright%5D%0A&id=vRinp)

可以推出:

信息论 - 图12%20%26%3DH%5Cleft(%20X%20%5Cright)%20%2BH%5Cleft(%20Y%20%5Cright)%20-H%5Cleft(%20X%2CY%20%5Cright)%20%0A%5C%5C%0A%26%3DH%5Cleft(%20X%20%5Cright)%20-H%5Cleft(%20X%5Cmid%20Y%20%5Cright)%20%0A%5C%5C%0A%26%3DH%5Cleft(%20Y%20%5Cright)%20-H%5Cleft(%20Y%5Cmid%20X%20%5Cright)%20%0A%5C%5C%0A%26%3DH%5Cleft(%20X%2CY%20%5Cright)%20-H%5Cleft(%20X%5Cmid%20Y%20%5Cright)%20-H%5Cleft(%20Y%5Cmid%20X%20%5Cright)%0A%5Cend%7Balign%7D%0A#card=math&code=%5Cbegin%7Balign%7D%0AI%5Cleft%28%20X%3BY%20%5Cright%29%20%26%3DH%5Cleft%28%20X%20%5Cright%29%20%2BH%5Cleft%28%20Y%20%5Cright%29%20-H%5Cleft%28%20X%2CY%20%5Cright%29%20%0A%5C%5C%0A%26%3DH%5Cleft%28%20X%20%5Cright%29%20-H%5Cleft%28%20X%5Cmid%20Y%20%5Cright%29%20%0A%5C%5C%0A%26%3DH%5Cleft%28%20Y%20%5Cright%29%20-H%5Cleft%28%20Y%5Cmid%20X%20%5Cright%29%20%0A%5C%5C%0A%26%3DH%5Cleft%28%20X%2CY%20%5Cright%29%20-H%5Cleft%28%20X%5Cmid%20Y%20%5Cright%29%20-H%5Cleft%28%20Y%5Cmid%20X%20%5Cright%29%0A%5Cend%7Balign%7D%0A&id=fU4So)

看起来很复杂,其实就一张图就能很好解释:

信息论 - 图13

交叉熵

交叉熵衡量了用 Q 的最优编码去编码 P 的平均编码长度

信息论 - 图14%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20-%5Clog%20Q%5Cleft(%20x%20%5Cright)%20%5Cright%5D%20%0A#card=math&code=H%5Cleft%28%20P%2CQ%20%5Cright%29%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20-%5Clog%20Q%5Cleft%28%20x%20%5Cright%29%20%5Cright%5D%20%0A&id=uvRL0)

相对熵(KL散度)

KL散度描述了用概率分布 Q 来近似 P 时所造成的信息损失量,或者说用 Q 去编码 P 所需要的额外编码长度。

信息论 - 图15%20%3DH%5Cleft(%20P%2CQ%20%5Cright)%20-H%5Cleft(%20P%20%5Cright)%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20%5Clog%20%5Cfrac%7BP%5Cleft(%20x%20%5Cright)%7D%7BQ%5Cleft(%20x%20%5Cright)%7D%20%5Cright%5D%20%0A#card=math&code=%5Cmathrm%7BKL%7D%5Cleft%28%20P%5Cparallel%20Q%20%5Cright%29%20%3DH%5Cleft%28%20P%2CQ%20%5Cright%29%20-H%5Cleft%28%20P%20%5Cright%29%20%3D%5Cmathop%20%7B%5Cmathbb%7BE%7D%7D%20%5Climits%7BX%5Csim%20P%7D%5Cleft%5B%20%5Clog%20%5Cfrac%7BP%5Cleft%28%20x%20%5Cright%29%7D%7BQ%5Cleft%28%20x%20%5Cright%29%7D%20%5Cright%5D%20%0A&id=Loxnq)

:::danger 可以思考一下,在机器学习中,如果用交叉熵作为损失函数,那么是用 信息论 - 图16 还是 信息论 - 图17. :::