个人

我觉得，这个东西就和Adaboost差不多？类似于选了一个子集，然后给子集分配了一个权重（学习率大小）

而且咋说呢，这个东西和模型的构造都是绑定的，你用模型A和数据集N，蒸馏得到了子集M
那这个M唯一的应用就是把初始化的A快速训练回去
但是问题就在于蒸馏的时候，你就已经对整个数据集进行了遍历和优化更新，本质并没有节省计算量啊

自然语言处理