1.基本概念

先验概率:通过经验来判断事情发生的概率
条件概率:事件A在另外一个事件B已经发生条件下的发生概率

2.朴素贝叶斯

之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。贝叶斯公式如下:
image.png

(1)工作流程

第一阶段:准备阶段。在这个阶段我们需要确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分数据进行分类,形成训练样本。

第二阶段:训练阶段。这个阶段就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。

第三阶段:应用阶段
这个阶段是使用分类器对新数据进行分类。输入是分类器和新数据,输出是新数据的分类结果。

(2)算法示例

下图中有8个样本,每个样本有“身高,体重,鞋码,鞋码”这四个特征,现在有一个新的数据,身高“高”、体重“中”,鞋码“中”,请问这个人是男还是女?
image.png
用 A 代表属性,用 A1, A2, A3 分别为身高 = 高、体重 = 中、鞋码 = 中。一共有两个类别,假设用 C 代表类别,那么 C1、C2 分别是男、女。在未知的情况下我们用 Cj 表示。那么我们想求在 A1、A2、A3 属性下Cj 的概率,用条件概率表示就是 P(Cj|A1A2A3)。
image.png
因为分母P(A1A2A3) 是固定的,只计算分子即可,假定Ai之间相互独立:P(A1A2A3|Cj)=P(A1|Cj)P(A2|Cj)P(A3|Cj)。
分别计算这些概率:
P(A1|C1)=1/2, P(A2|C1)=1/2, P(A3|C1)=1/4,所以P(A1A2A3|C1)=1/16
P(A1|C2)=0, P(A2|C2)=1/2, P(A3|C2)=1/2,所以P(A1A2A3|C2)=0
P(A1A2A3|C1)P(C1)>P(A1A2A3|C2)P(C2),所以应该是 C1 类别,即男性。