即Bootstrap Aggregation。

Sampling

image.png
从原train data(一共有n个)中挑选n’个data, randomly with replacement,生成一个新的dataset (即bag), D1。重复这样的操作获得m个bags,D, D2, …, D。

  • 一般来说 n’ <= n,常见的情况:n’ = 60%n,或者n’=n。
  • with replacement:放回抽样。即从原dataset中抽取一个data point并记录在D中后,将data point放回原dataset,这样的话,每次抽样时的dataset都是原dataset不变。
  • randomly with replacement:随机放回抽样。即每次都从原dataset中随机的放回抽样。

    train & test

    image.png
    得到m bags of new datasets之后,对每一个bag进行training,生成一个model。这样多个models的整体,就是一个整体的model。
    之后在使用这个model进行预测时,实际上就是给每一个子model输入同样的数据X,进行预测,再结合所有子models预测的结果,加权(mean, softmax, etc.)求得最后的预测值y。