有监督学习 - 决策树算法对比 - 《推荐系统及算法常见知识点》

解释
特征空间

ID3:信息增益

只适用于分类任务
只能处理离散型变量
学出来的树为多叉树
可通过剪枝权衡模型的泛化能力和准确性
对缺失值敏感(缺点)
对取值较多的属性有所偏好(缺点)

C4.5:信息增益率

只适用于分类任务
能处理离散型和连续性特征
学出来的树为多叉树
可以通过剪枝权衡模型的泛化能力和准确性
可以处理缺失值
对取值较少的属性有所偏好(缺点)

一般先选择TOPK信息增益大的属性，然后使用信息增益率进行选择。

CART：基尼指数

适用于分类和回归任务
可以处理离散性和连续性特征
学出来的树为二叉树
可以使用全部数据发现所有可能的树结构，权衡泛化能力和准确性
可以处理缺失值
结点划分时，特征可以重复使用。

预剪枝

节点内样本数据低于某一阈值。
节点划分前准确率比划分后准确率高。

即通过树的深度、叶子结点数、结点可分裂的最小增益进行权衡树的泛化能力和准确性，该方法具有减少的开销功能。

后剪枝
树训练完毕后，采用自底向上剪枝。在测试集上判断把该结点(具有树枝的结点)替换成叶子结点之后是否可以增加精度，可以提高测试集的精度，则进行剪枝；否则反之。
使用这种后剪枝，虽然原理简单，但是对于数据量很大的情况会产生不小的开销。因此，C4.5还有一个悲观剪枝，CART算法有一个基于代价复杂度剪枝的方法。

解释

ID3只能处理离散属性的原因是：ID3对于属性取值较多的具有偏好，而连续问题一般采用二分法。
ID3和C4.5只能处理分类问题的原因是：ID3本身只能处理离散属性，C4.5效果不好(没尝试过)。

特征空间

LR对于特征空间，使用超平面划分；而决策树每次使用平行于坐标系所在的超平面进行划分；决策树还具有可解释性强的特点，LR没有此特点。