决策树 - 《机器学习笔记》

决策树长什么样
1. 一个树一样，有很多节点进行重重筛选。实现输入一组属性，输出一个分类/预测结果
可以解决什么问题
1. 属性是离散的，分类
2. 离散化成小区间，当区间无限小可以解决回归（预测）
核心问题是什么
1. 怎么能生成一个准确率最高的树，此问题是NP完全问题，无法遍历，只有通过一些规则来生成树
相关算法是什么
1. 根据一些规则来生成树
  1. 信息增益（ID3）：即选择此属性作为节点前后的数据集的信息熵之差（前为未分割，后为已分割的许多块数据集），增益越大说明该节点的特征提取效率越高
  2. 信息增益比（增益率）（C4.5）：用信息增益除固有值，固有值越大类别越多。弥补用信息增益可能导致的“优先使用类别多的属性做节点”的缺点。
  3. 基尼系数（CART）：表示数据集的纯度，倾向选择划分后各个数据集更纯的属性作为节点
2. 根据一些操作来改进树
  1. 预剪枝：在选择某属性进行划分时掂量一下划分前后树的正确率的影响，正确率下降则提前减掉这个分支（不继续在此分组生成节点）。但是有缺点可能欠拟合，因为有些时候虽然加入这个节点正确率下降，但后续再加入新节点可能正确率上升，即”目光短浅“。
  2. 后剪枝：在生成树之后，从叶子节点检查到根节点，每次算一变正确率有没有下降，有就剪枝（剔除该节点）。该办法好，不会欠拟合。
  3. 前后剪枝联系：有点像多元线性回归中排除多重共线性的向前剔除和向后剔除法
其他问题（暂时不管）
1. 数据属性值缺失
实战
1. python-sklearn库