概念区别:
集成学习是指多个弱分类器有关联地逐步训练集成为强分类器,这种弱分类器一定是同质的分类器。一般把弱分类器集成的强分类器看成是一个分类器。
而模型集成是多个分类器,这里面比如集成学习得到的强分类器看成是一个分类器。多模型融合一般用来做信息补充或互补,讲究“好而不同”,不同是指模型的学习到的侧重面不一样。
模型的集成:
针对数据:将训练集分成K份,每次训练时将其中一份作为验证集,其他份作为训练集,训练模型。则将会得到K个模型,预测时取K个模型的平均输出值作为最终的结果(单模型多则集成)。
还可以将前一个模型的输出可以作为后续模型(选择的模型可以和前面有区别)的输入。
例:Fold 1 AUC : 0.796752
Fold 2 AUC : 0.804137
Fold 3 AUC : 0.800592
Fold 4 AUC : 0.802340
Fold 5 AUC : 0.804258
Full AUC score 0.801530 其中前五项为每份验证集的AUC得分,最后得到总的AUC得分(不是平均)。
针对特征:对特征进行抽样,每次训练时使用数据的不同特征进行模型的训练,最后将模型的结果进行统计、计算。
针对算法本身:
1. 个体学习器来自不同的模型集合(LR/SVM/xgboost/lgbm)1. 个体学习器来自于同一个模型集合的不同超参数,例如学习率η不同1. 算法本身具有随机性,例如用不同的随机种子来得到不同的模型
针对结果:根据各个模型的最终预测表现分配不同的权重,以改变其队最终结果影响的大小。对于正确率低的模型给予较小的权重,而正确率高的模型给予更高的权重。
在进行模型集成时可以采取上述的一种或多种方式进行集成。
