贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
朴素贝叶斯模型假设变量是条件独立的,从而模型容易求解. 这个假设很暴力,思想很naive,所以叫朴素贝叶斯。
1. 贝叶斯公式:
假设在一个多分类问题中,是所有可能的类别集合,
是训练集的所有样本,且每个样本包含三个特征,假设其中
。此时贝叶斯公式可写为:
2. 朴素贝叶斯公式:
朴素贝叶斯公式假设所有特征互相独立,对于数据集中第一个样本,计算其对应的所有类别的后验概率如下:
根据训练集数据,右边的表达式均可求得,代入计算即可计算出左边。比较、
、
大小,假设
最大,则认为样本
对应类别为
。
3. 分类器:判别模型 & 生成模型
先验概率:在现实中方便求得的概率,如
、
、
后验概率:在现实中不好直接求得的概率,如数据集中都是给的联合概率
**判别模型
思路:直接对建模,根据
直接求得
代表:
- LR
- SVM
- 决策树
- 神经网络
生成模型
思路:对联合概率分布建模,先计算
,再间接求得
(用先验概率计算后验概率)
代表:
- 朴素贝叶斯
- 隐马尔可夫模型
- 混合高斯模型
待续:
生成模型和判别模型的优缺点