贝叶斯最优分类器:总体风险最小,贝叶斯风险
判别式:直接得到概率
生成式:先得到联合概率
主要障碍:所有属性上的联合概率难以从有限训练样本估计获得
组合爆炸;样本稀疏
基本思路:假设属性之间是独立的
朴素贝叶斯
参数估计
拉普拉斯修正
- 若对预测速度要求⾼高
- 预计算所有概率估值,使⽤用时“查表”
- 若数据更更替频繁
- 不进⾏行任何训练,收到预测请求时再估值(懒惰学习, lazy learning)
- 若数据不不断增加
- 基于现有估值,对新样本涉及的概率估值进⾏行行修正(增量量学习, incremental learning)
半朴素贝叶斯分类器
独依赖估计
(One-Dependent Estimator, ODE)
假设每个属性在类别之外最多仅依赖⼀一个其他属性
怎么确定父属性
高阶依赖
需要的样本数增加