https://www.cnblogs.com/pinard/p/6069267.html 刘建平老师讲解非常好

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数贝叶斯模型 - 图1,要么是条件分布贝叶斯模型 - 图2。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布贝叶斯模型 - 图3

1. 朴素贝叶斯相关的统计学知识

在了解朴素贝叶斯的算法之前,我们需要对相关必须的统计学知识做一个回顾。

贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。

贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。
我们先看看条件独立公式,如果X和Y相互独立,则有:
贝叶斯模型 - 图4
我们接着看看条件概率公式:
贝叶斯模型 - 图5
或者说:
贝叶斯模型 - 图6
接着看看全概率公式:
贝叶斯模型 - 图7
从上面的公式很容易得出贝叶斯公式:
贝叶斯模型 - 图8

2. 朴素贝叶斯的模型

  1. 从统计学知识回到我们的数据分析。假如我们的分类模型样本是:<br />![](https://cdn.nlark.com/yuque/__latex/4afabcedd43fb86b43a1ba6745f2abaa.svg#card=math&code=%5Clarge%0A%28x_1%5E%7B%281%29%7D%2Cx_2%5E%7B%281%29%7D%2C...x_n%5E%7B%281%29%7D%2Cy_1%29%2C%28x_1%5E%7B%282%29%7D%2Cx_2%5E%7B%282%29%7D%2C...x_n%5E%7B%282%29%7D%2Cy_2%29%2C...%28x_1%5E%7B%28m%29%7D%2Cx_2%5E%7B%28m%29%7D%2C...x_n%5E%7B%28m%29%7D%2Cy_m%29&height=28&width=550)<br /> 即我们有m个样本,每个样本有n个特征,特征输出有K个类别,定义为![](https://cdn.nlark.com/yuque/__latex/a2b2a69f4b937f1a5b21c23d9d3e060c.svg#card=math&code=C_1%2CC_2%2C...%2CC_K%E3%80%82&height=21&width=110)<br /> 从样本我们可以学习得到朴素贝叶斯的先验分布![](https://cdn.nlark.com/yuque/__latex/72cb569a0e68c6dc42d010a1e8faa68d.svg#card=math&code=P%28Y%3DC_k%29%28k%3D1%2C2%2C...K%29&height=18&width=172),接着学习到条件概率分布![](https://cdn.nlark.com/yuque/__latex/bb45464c007e65093414816dfc69003c.svg#card=math&code=%5Clarge%0AP%28X%3Dx%7CY%3DC_k%29%3DP%28X_1%3Dx1%2CX_2%3Dx2%2C...X_n%3Dxn%7CY%3DC_k%29&height=21&width=498),然后我们就可以用贝叶斯公式得到X和Y的联合分布P(X,Y)了。联合分布P(X,Y)定义为:<br />![](https://cdn.nlark.com/yuque/__latex/a86e79903b1772af0817e5b28883672d.svg#card=math&code=%5Clarge%0A%5Cbegin%7Balign%7D%0AP%28X%2CY%3DC_k%29%20%26%3DP%28Y%3DC_k%29P%28X%3Dx%7CY%3DC_k%29%20%20%5C%5C%20%0A%26%20%3D%20P%28Y%3DC_k%29P%28X_1%3Dx1%2CX_2%3Dx2%2C...X_n%3Dxn%7CY%3DC_k%29%0A%5Cend%7Balign%7D&height=45&width=557)

从上面的式子可以看出贝叶斯模型 - 图9比较容易通过最大似然法求出得到的贝叶斯模型 - 图10就是类别贝叶斯模型 - 图11在训练集里面出现的频数。 但是贝叶斯模型 - 图12很难求出, 这是一个超级复杂的有n个维度的条件分布。朴素贝叶斯模型在这里做了一个大胆的假设,即X的n个维度之间相互独立,这样就可以得出:
贝叶斯模型 - 图13

从上式可以看出,这个很难的条件分布大大的简化了,但是这也可能带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办?如果真是非常不独立的话,那就尽量不要使用朴素贝叶斯模型了,考虑使用其他的分类方法比较好。但是一般情况下,样本的特征之间独立这个条件的确是弱成立的,尤其是数据量非常大的时候。虽然我们牺牲了准确性,但是得到的好处是模型的条件分布的计算大大简化了,这就是贝叶斯模型的选择。
最后回到我们要解决的问题,我们的问题是给定测试集的一个新样本特征(x(test)1,x(test)2,…x(test)n,\我们如何判断它属于哪个类型?
贝叶斯模型 - 图14
既然是贝叶斯模型,当然是后验概率最大化来判断分类了。 我们只要计算出所有的K个条件概率贝叶斯模型 - 图15,然后找出最大的条件概率对应的类别,这就是朴素贝叶斯的预测了。