信息量

信息量可以直觉理解成一个随机事件x不确定性的程度。
即当发生概率越小的事件发生了，带来的信息量越大；当发生概率越大的事件发生了，带来的信息量越小。
所以信息量与事件发生的概率有关，也被称为随机变量x的自信息(self-information)，描述的是随机变量的某个事件发生所带来的信息量

用数学公式描述如下：
假设X是一个离散型随机变量，其取值集合为信息熵和散度 - 图1 ，概率分布函数信息熵和散度 - 图2 ，则定义事件信息熵和散度 - 图3 的信息量为：
信息熵和散度 - 图4
由于信息熵和散度 - 图5 ，所以信息量的分布如下图：
信息熵和散度 - 图6
该函数既保证了信息的非负性，又保证了低概率事件含有更高的信息

信息熵

信息熵可以直觉理解成一个概率分布的复杂程度（不确定性）。

数学公式上信息熵是 所有可能发生的随机事件产生的信息量的期望。
$信息熵和散度 - 图7$
即对于某个随机分布，可能有多种可能性发生，每种可能性发生有一个概率信息熵和散度 - 图8 ，这样我们就可以计算出每个事件的信息量，以及该随机分布的信息熵。

当随机分布的取值个数越多，状态数就越多，概率分布就越复杂，对应的信息熵就越大。
例如当n维离散型随机变量为信息熵和散度 - 图9 （其它取值的概率均为0）时，信息熵信息熵和散度 - 图10 最小；
当n维离散型随机变量为信息熵和散度 - 图11 （均匀分布）时，信息熵信息熵和散度 - 图12 最大
所以信息熵和散度 - 图13