朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对给定的输入,利用贝叶斯定理求出后验概率最大的输出
4.1 朴素贝叶斯法的学习与分类
4.1.1 基本方法
设输入空间为
维向量的集合,输出空间为类标记集合
,
是定义在输入空间上的随机变量,
是定义在输出空间上的随机变量。
是
和
的联合概率分布,训练数据集
由
独立同分布产生
朴素贝叶斯法通过训练数据集学习联合概率分布,具体地,先学习一下先验概率分布及条件概率分布,然后再得到联合概率分布;先验概率分布:;条件概率分布:
事实上,假设可取值有
个,
可取值有
个,那么条件概率分布
的参数个数为
,参数过多导致估计实际是不可行的。朴素贝叶斯法对条件概率分布作了较强的条件独立性假设,这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的准确率,具体地:
朴素贝叶斯法分类时候,对给定的输入,通过学习的模型计算后验概率分布
,将后验概率最大的类作为
的类的输出,更具贝叶斯定理:
将先验概率分布和条件概率分布,代入得:
于是,朴素贝叶斯法的分类器表示为:
