朴素贝叶斯

带你理解朴素贝叶斯分类算法
理解朴素贝叶斯的拉普拉斯平滑
《机器学习 周志华》 第7章 贝叶斯分类器

  • 基于有限训练样本直接估计联合概率,在计算上将会遭遇组合爆炸问题,在数据.上将会遭遇样本稀疏问题;属性数越多,问题越严重。

  • 对类条件概率P(x | c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。例如,假设样本的d个属性都是二值的,则样本空间将有2d种可能的取值,在现实应用中,这个值往往远大于训练样本数m,也就是说,很多样本取值在训练集中根本没有出现,直接使用频率来估计P(x |c)显然不可行,因为“未被观测到”与“出现概率为零”通常是不同的。

最大似然估计

最大似然中的“似然”如何解释
如何通俗地理解概率论中的「极大似然估计法」?
陈希孺《概率论与数理统计》P162