1.朴素贝叶斯

1.朴素贝叶斯

1.1原理与模型

概率图模型如下，可以看到X与Y都是可观测的值，并且Y是X的条件。

我们要对X,Y的联合概率分布建模。
假设数据为第六次课堂笔记 - 图2 ，这里样本X,Y取样自某个分布P，其含有参数θ。
求解θ的过程就是学习(learning)，有了θ后，对新的x预测其y的过程叫做预测。比如给定一封邮件判断其是否是垃圾邮件。
预测/推理过程可以表示为：
第六次课堂笔记 - 图3 这里利用了贝叶斯公式。p(y)叫做类先验概率，p(x|y)叫做类条件概率。

1.1.2 参数的数量

为了计算第六次课堂笔记 - 图4 ，我们需要知道p(y) 跟 p(x|y)的所有可能，那么一共要求多少种？
第六次课堂笔记 - 图5
则一共要计算第六次课堂笔记 - 图6 ，可以看到当特征维度很大时，要求的参数非常庞大。

这里我们简化为x每个维度可能取值也只有0和1，且各维度相互独立。
那么特征分布为第六次课堂笔记 - 图7 。那么我们要求的参数为
第六次课堂笔记 - 图8 一共是1 + 2*d个参数。

1.1.3 条件独立性

条件独立性是说当Z已知时，X与Y是独立的，即第六次课堂笔记 - 图10 。
我们对各维度的处理就是利用了条件独立性。

1.1.4 朴素贝叶斯原理

“朴素”讲的就是特征之间是相互独立的。

1.2 算法

以最简单的情况为例，X和Y均服从伯努利分布，样本之间是独立的，样本的各个特征也是相互独立的。即：
第六次课堂笔记 - 图12
第六次课堂笔记 - 图13
第六次课堂笔记 - 图14
则似然函数为：
第六次课堂笔记 - 图15
取对数化简得：
第六次课堂笔记 - 图16
将似然函数记为第六次课堂笔记 - 图17 。
第六次课堂笔记 - 图18
可以利用导数求解：
第六次课堂笔记 - 图19 这里n1表示yi=1的样本数。
第六次课堂笔记 - 图20
第六次课堂笔记 - 图21

1.3 例子

这里以垃圾邮件为例。

在上面的计算中看到，若有一个特征在某一类中频率为0，则P(X|y) 计算一定为0。例如对含有acount的邮件，
第六次课堂笔记 - 图24 一定成立，不管其他词是什么样，则其后验也一定为0。即只要含有acount就是垃圾邮件。这就是Zero-Frequency Problem。
解决办法：拉普拉斯平滑
第六次课堂笔记 - 图25 这里N是类别数，对应的第六次课堂笔记 - 图26 这里n是样本总数。

关于属性缺失

朴素贝叶斯算法能够处理缺失的数据，在算法的建模时和预测时数据的属性都是单独处理的。因此如果一个数据实例缺失了一个属性的数值，在建模时将被忽略，不影响类条件概率的计算，在预测时，计算数据实例是否属于某类的概率时也将忽略缺失属性，不影响最终结果。