一、随机森林理论基础
1、集成学习:对于训练数据集,我们通过训练一系列个体学习器,并通过一定的结合策略将它们组合起来,形成一个强有力的学习器,以达到博采众长的目的。
2、个体学习器:个体学习器是相对于集成学习来说的,作为单个学习器,它通常是由一个现有的学习算法从训练数据产生,如C4.5决策树算法、BP神经网络算法等。个体学习器代表的是单个学习器,集成学习代表的是多个学习器的结合。
3、Bagging: 并行式集成学习方法,通过随机抽样,获取采样集。采样采取有放回抽样,知道约63.2%的样本出现在采样集中,而36.8%的未出现的作为验证集,则可以用于对泛化性能进行评估。
这种有放回的随机抽样可以生成多个不完全一致的训练集,并用于结果模型训练
4、Boosting: 一种可将弱学习器提升为强学习器的算法。先从初始训练集训练出一个基学习器,再根据基学习器的表现对训 练样本分布进行调整,提高被错误分类的样本的权重,降低被正确分类的样本的权重,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最后将这T个基学习器进行加权结合。
5、随机森林:随机森林是Bagging的一个扩展变体, RF在以决策树作为基学习器构建Bagging集成的基础上,进一步在决策树 的训练过程中加入了随机属性的选择。具体来说,传统决策树在选择划分属性时是在当前结点的所有候选属性(假定有d个)中选择一个最优属性;而在RF中,对基决策树的每个结点,先从该结点的候选属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。抽取的属性数k的选择比较重要,一般推荐 。由此,随机森林的基学习器的“多样性”不仅来自样本的扰动,还来自属性的扰动,使得最终集成的泛化能力进一步增强。
6、随机森林的优缺点:
优点:
- 训练可以高度并行化,可以有效运行在大数据集上。
- 由于对决策树候选划分属性的采样,这样在样本特征维度较高的时候,仍然可以高效的训练模型。
- 由于有了样本和属性的采样,最终训练出来的模型泛化能力强。
- 可以输出各特征对预测目标的重要性。
- 对部分特征的缺失容忍度高。
- 袋外数据可用作验证集来检验模型的有效性,不用额外划分数据集。
缺点:
- 在某些噪声比较大的样本集上,随机森林容易陷入过拟合。
- 取值划分比较多的特征容易对随机森林的决策产生更大的影响,从而影响拟合的模型效果。
二、实操部分
https://blog.csdn.net/wokaowokaowokao12345/article/details/109441753
后续有待补充:
