1. 决策树长什么样
      1. 一个树一样,有很多节点进行重重筛选。实现输入一组属性,输出一个分类/预测结果
    2. 可以解决什么问题
      1. 属性是离散的,分类
      2. 离散化成小区间,当区间无限小可以解决回归(预测)
    3. 核心问题是什么
      1. 怎么能生成一个准确率最高的树,此问题是NP完全问题,无法遍历,只有通过一些规则来生成树
    4. 相关算法是什么
      1. 根据一些规则来生成树
        1. 信息增益(ID3):即选择此属性作为节点前后的数据集的信息熵之差(前为未分割,后为已分割的许多块数据集),增益越大说明该节点的特征提取效率越高
        2. 信息增益比(增益率)(C4.5):用信息增益除固有值,固有值越大类别越多。弥补用信息增益可能导致的“优先使用类别多的属性做节点”的缺点。
        3. 基尼系数(CART):表示数据集的纯度,倾向选择划分后各个数据集更纯的属性作为节点
      2. 根据一些操作来改进树
        1. 预剪枝:在选择某属性进行划分时掂量一下划分前后树的正确率的影响,正确率下降则提前减掉这个分支(不继续在此分组生成节点)。但是有缺点可能欠拟合,因为有些时候虽然加入这个节点正确率下降,但后续再加入新节点可能正确率上升,即”目光短浅“。
        2. 后剪枝:在生成树之后,从叶子节点检查到根节点,每次算一变正确率有没有下降,有就剪枝(剔除该节点)。该办法好,不会欠拟合。
        3. 前后剪枝联系:有点像多元线性回归中排除多重共线性的向前剔除和向后剔除法
    5. 其他问题(暂时不管)
      1. 数据属性值缺失
    6. 实战
      1. python-sklearn库