1.简述一下随机森林算法的原理
    image.png
    2.随机森林的随机性体现在哪里?
    image.png
    3.随机森林算法的优缺点?
    image.png
    4.随机森林为什么不能用全样本去训练m棵决策树?
    image.png
    5.随机森林和GBDT的区别
    image.png
    衍生问题:
    为什么随机森林对异常值不敏感,而GBDT对异常值敏感?

    1. 因为随机森林引入了抽样,而且是多个模型共同做决策。某个值除了问题,对整体影响不大。而GBDT是串行操作,一个异常值,几乎会影响到所有模型的训练。

    随机森林缺点第二条 为什么划分较多的属性会对随机森林产生大的影响 属性权值是指? 它什么作用

    1. 相当的于这个属性多次被用来做判断,那么权重自然上升,对整个模型的表现影响就大。可以类比于我们上周讲的样本不平衡问题来理解,丰富类样本得到更多的训练机会,那么他们对模型的决策影响就大。

    GBDT使用回归树做基学习器,那GBDT只能做回归任务?

    1. 不是,加上 sigmoid softmax 可以把回归任务转换为分类任务。

    随机森林的每个决策树之间,是平行的吗?相互没有影响吧?另外,对于确定维度的数据集,通过随机森林得到的决策树的数目如何确定?

    1. 是平行的。是的训练过程相互不干涉。树的数量是个超参数,可以调节。

    用随机森林做回归和分类,最后的结果,回归问题取所有树的平均值,分类问题通过投票方法确定最后的类别吗?

    1. 是的

    什么是多数投票,怎样投票的

    1. 关于bagging 投票方法增强的一个例子,如果 m1, m2, m3 三个模型分别对三个样本进行二分类,三个模型分的的结果分别为 1,是 2. 3. 是。假设三个样本的label 都为是。那么每个模型的准确率都是2/3 bagging 后的模型准确率就达到了 100%