一、随机森林理论基础

1、集成学习:对于训练数据集,我们通过训练一系列个体学习器,并通过一定的结合策略将它们组合起来,形成一个强有力的学习器,以达到博采众长的目的。

2、个体学习器:个体学习器是相对于集成学习来说的,作为单个学习器,它通常是由一个现有的学习算法从训练数据产生,如C4.5决策树算法、BP神经网络算法等。个体学习器代表的是单个学习器,集成学习代表的是多个学习器的结合。

3、Bagging: 并行式集成学习方法,通过随机抽样,获取采样集。采样采取有放回抽样,知道约63.2%的样本出现在采样集中,而36.8%的未出现的作为验证集,则可以用于对泛化性能进行评估。
这种有放回的随机抽样可以生成多个不完全一致的训练集,并用于结果模型训练

4、Boosting: 一种可将弱学习器提升为强学习器的算法。先从初始训练集训练出一个基学习器,再根据基学习器的表现对训 练样本分布进行调整,提高被错误分类的样本的权重,降低被正确分类的样本的权重,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最后将这T个基学习器进行加权结合。

5、随机森林:随机森林是Bagging的一个扩展变体, RF在以决策树作为基学习器构建Bagging集成的基础上,进一步在决策树 的训练过程中加入了随机属性的选择。具体来说,传统决策树在选择划分属性时是在当前结点的所有候选属性(假定有d个)中选择一个最优属性;而在RF中,对基决策树的每个结点,先从该结点的候选属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。抽取的属性数k的选择比较重要,一般推荐 第2章:随机森林算法基础 - 图1 。由此,随机森林的基学习器的“多样性”不仅来自样本的扰动,还来自属性的扰动,使得最终集成的泛化能力进一步增强。

6、随机森林的优缺点:
优点:

  • 训练可以高度并行化,可以有效运行在大数据集上。
  • 由于对决策树候选划分属性的采样,这样在样本特征维度较高的时候,仍然可以高效的训练模型。
  • 由于有了样本和属性的采样,最终训练出来的模型泛化能力强。
  • 可以输出各特征对预测目标的重要性。
  • 对部分特征的缺失容忍度高。
  • 袋外数据可用作验证集来检验模型的有效性,不用额外划分数据集。

缺点: