ID3:信息增益

  1. 只适用于分类任务
  2. 只能处理离散型变量
  3. 学出来的树为多叉树
  4. 可通过剪枝权衡模型的泛化能力和准确性
  5. 对缺失值敏感(缺点)
  6. 对取值较多的属性有所偏好(缺点)

C4.5:信息增益率

  1. 只适用于分类任务
  2. 能处理离散型和连续性特征
  3. 学出来的树为多叉树
  4. 可以通过剪枝权衡模型的泛化能力和准确性
  5. 可以处理缺失值
  6. 对取值较少的属性有所偏好(缺点)

一般先选择TOPK信息增益大的属性,然后使用信息增益率进行选择。

CART:基尼指数

  1. 适用于分类和回归任务
  2. 可以处理离散性和连续性特征
  3. 学出来的树为二叉树
  4. 可以使用全部数据发现所有可能的树结构,权衡泛化能力和准确性
  5. 可以处理缺失值
  6. 结点划分时,特征可以重复使用。

预剪枝

  • 节点内样本数据低于某一阈值。
  • 节点划分前准确率比划分后准确率高。

即通过树的深度、叶子结点数、结点可分裂的最小增益进行权衡树的泛化能力和准确性,该方法具有减少的开销功能。

后剪枝
树训练完毕后,采用自底向上剪枝。在测试集上判断把该结点(具有树枝的结点)替换成叶子结点之后是否可以增加精度,可以提高测试集的精度,则进行剪枝;否则反之。
使用这种后剪枝,虽然原理简单,但是对于数据量很大的情况会产生不小的开销。因此,C4.5还有一个悲观剪枝,CART算法有一个基于代价复杂度剪枝的方法。

解释

ID3只能处理离散属性的原因是:ID3对于属性取值较多的具有偏好,而连续问题一般采用二分法。
ID3和C4.5只能处理分类问题的原因是:ID3本身只能处理离散属性,C4.5效果不好(没尝试过)。

特征空间

LR对于特征空间,使用超平面划分;而决策树每次使用平行于坐标系所在的超平面进行划分;决策树还具有可解释性强的特点,LR没有此特点。