最大似然估计属于频率学派统计方法,即基于观测数据对参数进行点估计,利用估计出来的参数对新样本进行预测。在这种思想里,参数是未知的固定值,而观测数据是由参数产生的随机变量,所以估计参数的思想是变量出现的概率最大,即最大化似然概率。
后验概率估计属于贝叶斯学派,这个学派认为概率是对不确定程度的表示,参数也不是固定值,需要根据观测变量去修正它,因此在这里观测数据不是一个随机变量,而是固定的观测值。参数出现的概率即称为后验概率,在已知信息的情况下参数出现的概率,即。对于一个新样本,使用贝叶斯方法对他进行预测就被称为贝叶斯估计,和最大似然估计不同,贝叶斯推断时采用的不是参数的点估计,而是参数的全局估计,观测数据的边缘似然率(也称为证据):
后验分布的计算可以由贝叶斯定理得出:
即后验概率与先验概率和似然函数
的乘积成正比。
后验概率与似然估计的核心差异是看待概率的角度不同。
在最大似然估计中,事件的发生频率是概率的体现(频率和概率是等价),而这种概率从统计意义上来说是固定的(也就是说参数是固定的),因此它们从优化的角度出发,要让对应的观测数据发生的概率最大。
在贝叶斯估计中,它们认为概率是对于不确定程度的描述,因此它们不认为参数是固定的,使用观测数据去计算参数的后验概率,也就有了上面的数学公式。贝叶斯估计最大的好处在于用基于观测变量的后验去修正参数,这样的估计会随着观测数据的变多而提升准确性,似然估计则在确定估计参数之后就不再变换了。
在贝叶斯估计中,后验概率经常难以计算。变分推断,则是一种对难以计算的后验概率进行近似的方法。