决策树

决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶子节点代表一种分类结果。

决策树学习的三个步骤:

特征选择

通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。

树的生成

决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归地产生决策树。这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。

树的剪枝

由于生成的决策树存在过拟合问题,需要对它进行剪枝,以简化学到的决策树。决策树的剪枝,往往从已生成的树上剪掉一些叶结点或叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。

ID3、C4.5和CART的区别

(1)适用范围:

ID3和C4.5只能用于分类,CART还可以用于回归任务。

(2)样本数据:

ID3只能处理离散的特征,C4.5和CART可以处理连续变量的特征(通过对数据排序之后找到类别不同的分割线作为切分点,根据切分点把连续属性转换为布尔型, 从而将连续型变量转换多个取值区间的离散型变量)
ID3对特征的缺失值没有考虑,C4.5和CART增加了对缺失值的处理(主要是两个问题:样本某些特征缺失的情况下选择划分的属性;选定了划分属性,对于在该属性上缺失特征的样本的处理)
从效率角度考虑,小样本C4.5,大样本CART。因为C4.5涉及到多次排序和对数运算,CART采用了简化的二叉树模型,在计算机中二叉树模型会比多叉树运算效率高,同时特征选择采用了近似的基尼系数来简化计算。

(3)节点特征选择:

在每个内部节点的特征选择上,ID3选择信息增益最大的特征,C4.5选择信息增益比最大的特征,CART选择基尼指数最小的特征及其切分点作为最优特征和最优切分点。
ID3和C4.5节点上可以产出多叉,而CART节点上永远是二叉
特征变量的使用中,对具有多个分类值的特征ID3和C4.5在层级之间只单次使用,CART可多次重复使用

(4)剪枝

C4.5是通过剪枝(PEP)来减小模型复杂度增加泛化能力,而CART是对所有子树中选取最优子树(CCP)