navie Bayes?
感性认知朴素贝叶斯法
假设,你现在收到两封邮件,一封是外国朋友写给你的
朋友的邮件:
Dear,
….
还有一封是垃圾邮件
垃圾邮件:
Dear,
…
我们现在计算两封邮件中出现的单词与邮件字数的比例分别如下:
朋友的邮件: 垃圾邮件:
假如,这时候你又收到一封邮件 “Dear Friend”,现在让我们计算一下是垃圾邮件还是普通的邮件
首先,我们需要一个先验概率 ,这个概率的得出需要训练集,假如我们一共有12封邮件,其中有8封是正常的邮件,剩下4封都是垃圾邮件,那么
那么接下来计算认为 “Dear Friend” 是普通邮件的概率 :
先验概率
那么接下来计算认为 “Dear Friend” 是垃圾的概率:
由于认为 “Dear Friend” 是普通邮件的概率大于计算认为 “Dear Friend” 是垃圾的概率,因此我们将 “Dear Friend” 认为是普通的邮件
理性认知朴素贝叶斯法
- 基于贝叶斯定理与特征条件独立假设的分类方法
先验概率:
条件概率:
朴素贝叶斯法学习算法的工作流程
输入:训练数据集 其中 , 表示第 个样本的第 个特征, , 表示第 个特征可能取的第 个值,
输出:实例 的分类
- 计算先验概率及其条件概率
- 对于给定的实例 计算
- 确定实例 的分类
举个例子
例如如下图所示是一位客户是否进行高尔夫的天气数据,根据[户外,温度,湿度,起风]4个特征来判断该客户的情况
单词 | 含义 |
---|---|
OUTLOOK | 户外 |
TEMPERATURE | 温度 |
HUMIDITY | 湿度 |
WINDY | 起风 |
PLAY GOLF | 是否打高尔夫 |
观察第一行,我们会发现户外(OUTLOOK)是阴雨天(Rainy),并且温度(TEMPERATURE)和湿度(HUMIDITY)都很高,我们大体上可以判断这不是一个适合打高尔夫的天气 (直觉),事实上,该客户也没有在这个天气下打高尔夫
首先做两个假设
- 认为特征之间是相互独立的,比如温度与湿度之间没有什么联系
- 认为特征对结果有着相同的影响,比如户外的情况并没有起着是否打高尔夫球的决定性作用
定义变量:
表示 Play Golf = Yes 表示 Play Golf = No
表示 OUTLOOK 的 3 种取值
表示 TEMPERATURE 的 3 种取值
表示 HUMIDITY 的 2 种取值
表示 WINDY 的 2 种取值
- 计算先验概率和条件概率
先验概率:
条件概率:
: : : :
: : : :
- 对于给定的实例,我们计算一下第 13 组数据
- 根据上式计算可知,不去打高尔夫的概率大于去打高尔夫的概率,和给出的数据一致!