朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对给定的输入第4章 朴素贝叶斯法 - 图1,利用贝叶斯定理求出后验概率最大的输出第4章 朴素贝叶斯法 - 图2

4.1 朴素贝叶斯法的学习与分类

4.1.1 基本方法

设输入空间第4章 朴素贝叶斯法 - 图3第4章 朴素贝叶斯法 - 图4维向量的集合,输出空间为类标记集合第4章 朴素贝叶斯法 - 图5第4章 朴素贝叶斯法 - 图6是定义在输入空间上的随机变量,第4章 朴素贝叶斯法 - 图7是定义在输出空间上的随机变量。第4章 朴素贝叶斯法 - 图8第4章 朴素贝叶斯法 - 图9第4章 朴素贝叶斯法 - 图10的联合概率分布,训练数据集第4章 朴素贝叶斯法 - 图11第4章 朴素贝叶斯法 - 图12独立同分布产生

朴素贝叶斯法通过训练数据集学习联合概率分布,具体地,先学习一下先验概率分布及条件概率分布,然后再得到联合概率分布;先验概率分布:第4章 朴素贝叶斯法 - 图13;条件概率分布:第4章 朴素贝叶斯法 - 图14

事实上,假设第4章 朴素贝叶斯法 - 图15可取值有第4章 朴素贝叶斯法 - 图16个,第4章 朴素贝叶斯法 - 图17可取值有第4章 朴素贝叶斯法 - 图18个,那么条件概率分布第4章 朴素贝叶斯法 - 图19的参数个数为第4章 朴素贝叶斯法 - 图20,参数过多导致估计实际是不可行的。朴素贝叶斯法对条件概率分布作了较强的条件独立性假设,这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的准确率,具体地:
第4章 朴素贝叶斯法 - 图21

朴素贝叶斯法分类时候,对给定的输入第4章 朴素贝叶斯法 - 图22,通过学习的模型计算后验概率分布第4章 朴素贝叶斯法 - 图23,将后验概率最大的类作为第4章 朴素贝叶斯法 - 图24的类的输出,更具贝叶斯定理:第4章 朴素贝叶斯法 - 图25

将先验概率分布和条件概率分布,代入得:第4章 朴素贝叶斯法 - 图26

于是,朴素贝叶斯法的分类器表示为:第4章 朴素贝叶斯法 - 图27

注意到,上式中分母对所有第4章 朴素贝叶斯法 - 图28都是相同的,所以第4章 朴素贝叶斯法 - 图29

4.1.2 后验概率最大化的含义