第2章：随机森林算法基础

一、随机森林理论基础
二、实操部分

一、随机森林理论基础

1、集成学习：对于训练数据集，我们通过训练一系列个体学习器，并通过一定的结合策略将它们组合起来，形成一个强有力的学习器，以达到博采众长的目的。

2、个体学习器：个体学习器是相对于集成学习来说的，作为单个学习器，它通常是由一个现有的学习算法从训练数据产生，如C4.5决策树算法、BP神经网络算法等。个体学习器代表的是单个学习器，集成学习代表的是多个学习器的结合。

3、Bagging：并行式集成学习方法，通过随机抽样，获取采样集。采样采取有放回抽样，知道约63.2%的样本出现在采样集中，而36.8%的未出现的作为验证集，则可以用于对泛化性能进行评估。
这种有放回的随机抽样可以生成多个不完全一致的训练集，并用于结果模型训练

4、Boosting：一种可将弱学习器提升为强学习器的算法。先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，提高被错误分类的样本的权重，降低被正确分类的样本的权重，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最后将这T个基学习器进行加权结合。

5、随机森林：随机森林是Bagging的一个扩展变体， RF在以决策树作为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中加入了随机属性的选择。具体来说，传统决策树在选择划分属性时是在当前结点的所有候选属性（假定有d个）中选择一个最优属性；而在RF中，对基决策树的每个结点，先从该结点的候选属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。抽取的属性数k的选择比较重要，一般推荐第2章：随机森林算法基础 - 图1 。由此，随机森林的基学习器的“多样性”不仅来自样本的扰动，还来自属性的扰动，使得最终集成的泛化能力进一步增强。

6、随机森林的优缺点：
优点：

训练可以高度并行化，可以有效运行在大数据集上。
由于对决策树候选划分属性的采样，这样在样本特征维度较高的时候，仍然可以高效的训练模型。
由于有了样本和属性的采样，最终训练出来的模型泛化能力强。
可以输出各特征对预测目标的重要性。
对部分特征的缺失容忍度高。
袋外数据可用作验证集来检验模型的有效性，不用额外划分数据集。

缺点：

在某些噪声比较大的样本集上，随机森林容易陷入过拟合。
取值划分比较多的特征容易对随机森林的决策产生更大的影响，从而影响拟合的模型效果。
二、实操部分
https://blog.csdn.net/wokaowokaowokao12345/article/details/109441753
后续有待补充：

一、随机森林理论基础

二、实操部分