navie Bayes?

感性认知朴素贝叶斯法

假设,你现在收到两封邮件,一封是外国朋友写给你的

朋友的邮件:
Dear,
….

还有一封是垃圾邮件 朴素贝叶斯法 - 图3

垃圾邮件:
Dear,

我们现在计算两封邮件中出现的单词与邮件字数的比例分别如下:
朋友的邮件: 垃圾邮件:
朴素贝叶斯法 - 图4 朴素贝叶斯法 - 图5
朴素贝叶斯法 - 图6 朴素贝叶斯法 - 图7
朴素贝叶斯法 - 图8 朴素贝叶斯法 - 图9
朴素贝叶斯法 - 图10 朴素贝叶斯法 - 图11

假如,这时候你又收到一封邮件 “Dear Friend”,现在让我们计算一下是垃圾邮件还是普通的邮件

首先,我们需要一个先验概率 朴素贝叶斯法 - 图12,这个概率的得出需要训练集,假如我们一共有12封邮件,其中有8封是正常的邮件,剩下4封都是垃圾邮件,那么朴素贝叶斯法 - 图13
那么接下来计算认为 “Dear Friend” 是普通邮件的概率 :朴素贝叶斯法 - 图14

先验概率 朴素贝叶斯法 - 图15
那么接下来计算认为 “Dear Friend” 是垃圾的概率:朴素贝叶斯法 - 图16

由于认为 “Dear Friend” 是普通邮件的概率大于计算认为 “Dear Friend” 是垃圾的概率,因此我们将 “Dear Friend” 认为是普通的邮件

理性认知朴素贝叶斯法

  • 基于贝叶斯定理与特征条件独立假设的分类方法

先验概率:朴素贝叶斯法 - 图17

条件概率:朴素贝叶斯法 - 图18

朴素贝叶斯法学习算法的工作流程

输入:训练数据集 朴素贝叶斯法 - 图19 其中 朴素贝叶斯法 - 图20朴素贝叶斯法 - 图21 表示第 朴素贝叶斯法 - 图22 个样本的第 朴素贝叶斯法 - 图23 个特征,朴素贝叶斯法 - 图24 , 朴素贝叶斯法 - 图25 表示第 朴素贝叶斯法 - 图26 个特征可能取的第 朴素贝叶斯法 - 图27 个值, 朴素贝叶斯法 - 图28
输出:实例 朴素贝叶斯法 - 图29 的分类

  1. 计算先验概率及其条件概率

朴素贝叶斯法 - 图30
朴素贝叶斯法 - 图31

  1. 对于给定的实例 朴素贝叶斯法 - 图32计算

朴素贝叶斯法 - 图33

  1. 确定实例 朴素贝叶斯法 - 图34 的分类

朴素贝叶斯法 - 图35

举个例子

例如如下图所示是一位客户是否进行高尔夫的天气数据,根据[户外,温度,湿度,起风]4个特征来判断该客户的情况

单词 含义
OUTLOOK 户外
TEMPERATURE 温度
HUMIDITY 湿度
WINDY 起风
PLAY GOLF 是否打高尔夫

5.png
观察第一行,我们会发现户外(OUTLOOK)是阴雨天(Rainy),并且温度(TEMPERATURE)和湿度(HUMIDITY)都很高,我们大体上可以判断这不是一个适合打高尔夫的天气 (直觉),事实上,该客户也没有在这个天气下打高尔夫

首先做两个假设

  • 认为特征之间是相互独立的,比如温度与湿度之间没有什么联系
  • 认为特征对结果有着相同的影响,比如户外的情况并没有起着是否打高尔夫球的决定性作用

定义变量:
朴素贝叶斯法 - 图37 表示 Play Golf = Yes 朴素贝叶斯法 - 图38 表示 Play Golf = No
朴素贝叶斯法 - 图39 表示 OUTLOOK 的 3 种取值
朴素贝叶斯法 - 图40 表示 TEMPERATURE 的 3 种取值
朴素贝叶斯法 - 图41 表示 HUMIDITY 的 2 种取值
朴素贝叶斯法 - 图42 表示 WINDY 的 2 种取值

  1. 计算先验概率和条件概率

先验概率:
朴素贝叶斯法 - 图43
朴素贝叶斯法 - 图44
条件概率:
朴素贝叶斯法 - 图45朴素贝叶斯法 - 图46朴素贝叶斯法 - 图47朴素贝叶斯法 - 图48
朴素贝叶斯法 - 图49 朴素贝叶斯法 - 图50 朴素贝叶斯法 - 图51 朴素贝叶斯法 - 图52
朴素贝叶斯法 - 图53 朴素贝叶斯法 - 图54 朴素贝叶斯法 - 图55 朴素贝叶斯法 - 图56
朴素贝叶斯法 - 图57 朴素贝叶斯法 - 图58

朴素贝叶斯法 - 图59朴素贝叶斯法 - 图60朴素贝叶斯法 - 图61朴素贝叶斯法 - 图62
朴素贝叶斯法 - 图63 朴素贝叶斯法 - 图64 朴素贝叶斯法 - 图65 朴素贝叶斯法 - 图66
朴素贝叶斯法 - 图67 朴素贝叶斯法 - 图68 朴素贝叶斯法 - 图69 朴素贝叶斯法 - 图70
朴素贝叶斯法 - 图71 朴素贝叶斯法 - 图72

  1. 对于给定的实例,我们计算一下第 13 组数据 朴素贝叶斯法 - 图73

朴素贝叶斯法 - 图74
朴素贝叶斯法 - 图75

  1. 根据上式计算可知,不去打高尔夫的概率大于去打高尔夫的概率,和给出的数据一致!

参考