朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对给定的输入,利用贝叶斯定理求出后验概率最大的输出
4.1 朴素贝叶斯法的学习与分类
4.1.1 基本方法
设输入空间为维向量的集合,输出空间为类标记集合,是定义在输入空间上的随机变量,是定义在输出空间上的随机变量。是和的联合概率分布,训练数据集由独立同分布产生
朴素贝叶斯法通过训练数据集学习联合概率分布,具体地,先学习一下先验概率分布及条件概率分布,然后再得到联合概率分布;先验概率分布:;条件概率分布:
事实上,假设可取值有个,可取值有个,那么条件概率分布的参数个数为,参数过多导致估计实际是不可行的。朴素贝叶斯法对条件概率分布作了较强的条件独立性假设,这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的准确率,具体地:
朴素贝叶斯法分类时候,对给定的输入,通过学习的模型计算后验概率分布,将后验概率最大的类作为的类的输出,更具贝叶斯定理:
将先验概率分布和条件概率分布,代入得:
于是,朴素贝叶斯法的分类器表示为: