在论文中经常能看到这个温度参数的身影,那么他都有什么用处呢?比如经常看到下面这样的式子:
里面的beta就是temperature parameter,他在运算的时候起到什么作用呢?是这样的,他可以起到平滑softmax输出结果的作用,举例子如下:
输出结果如下:
当beta>1的时候,可以将输出结果变得平滑,当beta<1的时候,可以让输出结果变得差异更大一下,更尖锐一些。如果beta比较大,则分类的crossentropy损失会很大,可以在不同的迭代次数里,使用不同的beta数值,有点类似于学习率的效果。
