基本介绍

知乎写得非常好的集成方法、GBDT介绍
重点:

  • 回归树
  • GBDT第m轮的负梯度公式: GBDT - 图1GBDT 的每一步残差计算其实变相地增大了被分错样本的权重,而对与分对样本的权重趋于 0
  • 缩减:Shrinkage 的思想认为,每走一小步逐渐逼近结果的效果要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它并不是完全信任每一棵残差树。

    GBDT为什么要拟合残差?为什么要拟合负梯度?

    https://zhuanlan.zhihu.com/p/351781576

    xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度?


    对于Bagging算法来说,由于我们会并行地训练很多不同的分类器的目的就是降低这个方差(variance) ,因为采用了相互独立的基分类器多了以后,h的值自然就会靠近.所以对于每个基分类器来说,目标就是如何降低这个偏差(bias),所以我们会采用深度很深甚至不剪枝的决策树。
    对于Boosting来说,每一步我们都会在上一轮的基础上更加拟合原数据,所以可以保证偏差(bias),所以对于每个基分类器来说,问题就在于如何选择variance更小的分类器,即更简单的分类器,所以我们选择了深度很浅的决策树。

    梯度提升和梯度下降的区别和联系是什么?

    两者都是在每一轮迭代中,利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新,只不过在梯度下降中,模型是以参数化形式表示,从而模型的更新等价于参数的更新。而在梯度提升中,模型并不需要进行参数化表示,而是直接定义在函数空间中,从而大大扩展了可以使用的模型种类。
    image.png

    GBDT如何构建特征?

    GBDT+LR https://blog.csdn.net/shine19930820/article/details/71713680

    GBDT如何用于分类?

    https://www.cnblogs.com/ModifyRong/p/7744987.html

GBDT的优点和局限性?

  • 优点
    • (1)预测阶段的计算速度快,树与树之间可并行化计算。
    • (2)在分布稠密的数据集上,泛化能力和表达能力都很好,这使得GBDT在Kaggle的众多竞赛中,经常名列榜首。
    • (3)采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自动发现特征间的高阶关系,并且也不需要对数据进行特殊的预处理如归一化等。
  • 局限性

    • (1) GBDT在高维稀疏的数据集上,表现不如支持向量机或者神经网络。
    • (2) GBDT在处理文本分类特征问题.上,相对其他模型的优势不如它在处理数值特征时明显。
    • (3)训练过程需要串行训练,只能在决策树内部采用-些局部并行的手段提高训练速度。

      RF和GBDT之间的区别与联系?

  • 相同点

    • 都是由多棵树组成,最终的结果都是由多棵树一起决定。
    • RF和GBDT在使用CART树时,可以是分类树或者回归树。
  • 不同点:
    • 组成随机森林的树可以并行生成,而GBDT是串行生成
    • 随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和
    • 随机森林对异常值不敏感,而GBDT对异常值比较敏感
    • 随机森林是减少模型的方差,而GBDT是减少模型的偏差
    • ?随机森林不需要进行特征归一化。而GBDT则需要进行特征归一化