之前我们提到了常用的三种指标,基尼系数,信息增益和信息增益率。对应着这些指标,我们有着不同的经典的决策树算法。
    首先提到的是ID3模型,ID3模型是基于信息增益指标而生成的模型,也就是说ID3的缺点是对选择值多的属性有所偏好。为了对ID3进行优化提出了C4.5模型,C4.5模型是采用信息增益率的指标而生成的模型,而C4.5的缺点是对选择值少的属性有所偏好,为了使整体的性能达到最优,我们常常将ID3和C4.5结合起来使用。先从候选属性中找出信息增益高于平均水平的属性,然后再通过信息增益率选出最适合作为划分的属性。