学习率的影响

  • 学习率过大:损失函数值可能发散,因为可能会越过越过极小值点。
  • 学习率过小:收敛速度过慢或者陷入局部最优

    Annealing method

  • 基本思路:在几次迭代后,学习率按照某种方式衰减。

    乘衰减因子

    每经过 n 次迭代,让学习率 学习率策略 - 图1 乘一个衰减因子 学习率策略 - 图2

    Exponential decay (指数衰减)

    第 t 次迭代时候的学习率为
    学习率策略 - 图3

    • 学习率策略 - 图4:初始学习率
    • 学习率策略 - 图5:超参数

      在某个时刻以后开始衰减

      第 t 次迭代时候的学习率为
      学习率策略 - 图6

    • 学习率策略 - 图7:初始学习率

    • 学习率策略 - 图8:超参数,表示开始衰减的时刻