主要工作
这篇ICLR 2015的工作,主要通过使用一个regressor(一个特定的卷及模块)实现维度的匹配,进而匹配教师网络特定位置的输出特征和学生网络特定位置的输出特征。
但是这里的教师网络和学生网络的设定与原始的Hinton的KD中的设定不同:学生模型比教师模型更瘦更深(thiner&deeper)。这更深的学生模型在一定程度上保证了超越教师模型的可能。
主要结构
训练过程
In order to help the training of deep FitNets (deeper than their teacher), we introduce hints from the teacher network.
- A hint is defined as the output of a teacher’s hidden layer responsible for guiding the student’s learning process.
- Analogously, we choose a hidden layer of the FitNet, the guided layer, to learn from the teacher’s hint layer.