AI面试百题斩 - 1117 - 《经典算法题》

1.简述一下随机森林算法的原理

2.随机森林的随机性体现在哪里？

3.随机森林算法的优缺点？

4.随机森林为什么不能用全样本去训练m棵决策树？

5.随机森林和GBDT的区别

衍生问题：
为什么随机森林对异常值不敏感，而GBDT对异常值敏感？

因为随机森林引入了抽样，而且是多个模型共同做决策。某个值除了问题，对整体影响不大。而GBDT是串行操作，一个异常值，几乎会影响到所有模型的训练。

随机森林缺点第二条为什么划分较多的属性会对随机森林产生大的影响属性权值是指? 它什么作用

相当的于这个属性多次被用来做判断，那么权重自然上升，对整个模型的表现影响就大。可以类比于我们上周讲的样本不平衡问题来理解，丰富类样本得到更多的训练机会，那么他们对模型的决策影响就大。

GBDT使用回归树做基学习器，那GBDT只能做回归任务？

不是，加上 sigmoid 和 softmax 可以把回归任务转换为分类任务。

随机森林的每个决策树之间，是平行的吗？相互没有影响吧？另外，对于确定维度的数据集，通过随机森林得到的决策树的数目如何确定？

是平行的。是的训练过程相互不干涉。树的数量是个超参数，可以调节。

用随机森林做回归和分类，最后的结果，回归问题取所有树的平均值，分类问题通过投票方法确定最后的类别吗？

是的

什么是多数投票，怎样投票的

关于bagging 投票方法增强的一个例子，如果 m1, m2, m3 三个模型分别对三个样本进行二分类，三个模型分的的结果分别为 1，是 是 否 2. 否 是 是 3. 是 否 是。假设三个样本的label 都为是。那么每个模型的准确率都是2/3 而bagging 后的模型准确率就达到了 100%