选择判断

⽰例(Instance)/样本(Sample):⼀个对象的输入(⽐如,⼀个⻄⽠的描述)⽰例不含标记
样例(Example):示例+标记

假设空间的子集:跟训练集一致的“假设集合”

简答

单位阶跃函数缺点
– 不连续
• 替代函数——对数几率函数(logistic function)
– 单调可微、任意阶可导 单位阶跃函数与对数几率函数的比较
对数几率回归的优势
1. 无需事先假设数据分布
2. 可得到“类别”的近似概率预测
3. 可直接应用现有数值优化算法求取最优解

一对一
• 训练N(N-1)/2个分类器
,存储开销和测试时间大
• 训练只用两个类的样例
,训练时间短
一对其余
• 训练N个分类器,存储
开销和测试时间小
• 训练用到全部训练样例训练时间长

信息增益的划分方式会倾向于取值数较多的属性
信息增益率导致倾向于选择取值比较少的属性

预剪枝的优缺点
• 优点
– 降低过拟合⻛险
– 显著减少训练时间和测试时间开销
• 缺点
– ⽋拟合⻛险:有些分⽀的当前划分虽然不能提升泛
化性能,但在其基础上进⾏的后续划分却有可能导
致性能显著提⾼。
– 预剪枝基于“贪⼼”本质禁⽌这些分⽀展开,带来
了⽋拟合⻛险
优点
– 后剪枝⽐预剪枝保留了更多的分⽀,⽋拟合⻛险⼩
,泛化性能往往优于预剪枝决策树
• 缺点
– 训练时间开销⼤:后剪枝过程是在⽣成完全决策树
之后进⾏的,需要⾃底向上对所有⾮叶结点逐⼀
考察;其训练时间要远⼤于预剪枝决策树

计算

PR AOC

image.png

image.png
image.png

DT

image.png
image.png
image.png
image.png

贝叶斯定理

假设了条件之间是独立的
用训练数据估计参数,极大似然根据参数得到训练数据

拉普拉斯修正