历史

image.png

XGB: extreme GB

Bagging

image.png

有放回意味着存在重复的样本

image.png

(1-1/n)^n表明某个球取n次都不被取出来,再1-,就是某个球取n次被取出来的概率(由于每个球取出概率相同,因此整体的样本数就是这个概率)

上面的随机性体现在给出部分sample,当然也可以给出部分feature(eg:给出前三个feature、后三个feature)。
image.png
majority voting
image.png

Boosting

思想
image.png

弱分类器合在一起

image.png

每个sample也有权重w、每个分类器本身也有权重α。 每次计算error后,更新α(分的越对,权重越大),更新w(对错误的样本增加权重,乘以e^α)。

image.png

forward stage learning:有了一个目标函数,让预测值一步步接近真实值(不是直接到达,因为这样太困难了)。基于这样思路,Adaboost就进化到了gradient boost(更加generalize)。

image.png
image.png
image.png
一个模型F拟合存在错误,那么就再找一个模型h,只去拟合模型F中错误的。