image.png

主要工作

这篇ICLR 2015的工作,主要通过使用一个regressor(一个特定的卷及模块)实现维度的匹配,进而匹配教师网络特定位置的输出特征和学生网络特定位置的输出特征

但是这里的教师网络和学生网络的设定与原始的Hinton的KD中的设定不同:学生模型比教师模型更瘦更深(thiner&deeper)。这更深的学生模型在一定程度上保证了超越教师模型的可能

image.png

主要结构

image.png

训练过程

image.png

In order to help the training of deep FitNets (deeper than their teacher), we introduce hints from the teacher network.

  • A hint is defined as the output of a teacher’s hidden layer responsible for guiding the student’s learning process.
  • Analogously, we choose a hidden layer of the FitNet, the guided layer, to learn from the teacher’s hint layer.

损失函数

image.png
image.png
image.png

相关链接