以ID3为例的决策树算法在应用过程中的问题:

  • 因为ID3使用的是信息增益来划分特征,所以会依次选取信息增益最大的特征作为父节点,如果该节点继续划分带来的信息增益没有超过阈值就不进行划分,这之间决策树节点划分时,会重新以该节点的所有可能的值将数据集切分成相应子集,然后重复上述过程。

按照信息增益进行划分的过程,容易偏向取值很多的特征(就是这个特征属性有很多的选项),因为特征取值多的情况下本身的熵就会比较高,所以以取值多的特征划分的时候就会带来更多的信息增益,毕竟确定性程度高了(排除掉很多的选项能不确定性高吗)

  • 信息增益比就是对原先的信息增益加了一个特征自身的熵作为分母;类似于对自身的确定性变化做了一个标准化,降低多值特征被选为父节点的几率,
  • cart是使用基尼不纯度作为决策树分支的划分标准;同时在生成过程中采用最小二乘法思想使得切分点两边的子区域的输出的平方误差和最小,通过交叉验证方法选择子树

  • C5.0采用梯度增益下降速率作为划分的目标

剪枝过程:
剪枝过程使用交叉检验,选取最好的通过可变参数决策树复习: - 图1来限制树的节点个数,

梯度提升树:

提到提升树就得谈到提升方法,一个是线性加法模型,另一个是前向分步
提升方法用弱分类器的线性叠加方式来拟合损失函数的残差
梯度提升树可以说是传统机器学习中最强的一批,封装好的XGboost就是极限梯度提升树的译名