学习率的影响Annealing method乘衰减因子Exponential decay (指数衰减)在某个时刻以后开始衰减 学习率的影响 学习率过大:损失函数值可能发散,因为可能会越过越过极小值点。学习率过小:收敛速度过慢或者陷入局部最优 Annealing method基本思路:在几次迭代后,学习率按照某种方式衰减。 乘衰减因子每经过 n 次迭代,让学习率 乘一个衰减因子 。 Exponential decay (指数衰减)第 t 次迭代时候的学习率为 :初始学习率:超参数 在某个时刻以后开始衰减第 t 次迭代时候的学习率为 :初始学习率 :超参数,表示开始衰减的时刻