最大熵原理

在所有可能的概率模型(即概率分布)中,熵最大的模型是最好的模型。
在满足已知条件的情况下,选取熵最大的模型。
最大熵原理选取熵最大的模型,而决策树的划分目标选取熵最小的划分?

  • 最大熵原理认为在满足已知条件之后,选择不确定性最大(即:不确定的部分是等可能的)的模型。也就是不应该再施加任何额外的约束。因此这是一个求最大不确定性的过程,所以选择熵最大的模型。
  • 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性,最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程,所以选取熵最小的划分。

我觉得……一个已知没用完,一个已知条件用完了……

熵和条件熵

最大熵模型(MaxENT) - 图1

约束条件

最大熵模型(MaxENT) - 图2
这里用p(x)一湾 近似了p(x)

优化模型

最大熵模型(MaxENT) - 图3

模型求解

拉格朗日函数,关于P是凸函数,可以考虑进行对偶求解。
求解后得到
最大熵模型(MaxENT) - 图4

所以,以最大熵作为先验的分布都是指数族分布。
**

最大熵模型,为什么最大的是条件熵?

判别模型,使用经验分布近似了 p(x),只需要最大条件
最大熵的哲学思想为:在已知样本情况下,从所有可能的模型中,选择没有额外假设的那一个(没有额外假设即没有额外信息,所以也可以理解为熵最高)
与他的哲学相契合。

最大熵与逻辑回归

如果我们限定最大熵模型(MaxENT) - 图5为二元变量,即最大熵模型(MaxENT) - 图6,那么就可以把最大熵模型转换为 logistic 回归模型。我们还需要定义特征函数为

最大熵模型(MaxENT) - 图7
就可以从P那里推到LR,所以说log linear model ,到哪里都是通的。

softmax模型和最大熵模型是否是一回事?

image.png
特征函数细化到对于同一标签就可以了。