除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是,AdaDelta算法没有学习率这一超参数

7.7.1 算法

AdaDelta算法也像RMSProp算法一样,使用了小批量随机梯度7.7 AdaDelta算法 - 图1按元素平方的指数加权移动平均变量7.7 AdaDelta算法 - 图2。在时间步0,它的所有元素被初始化为0。给定超参数7.7 AdaDelta算法 - 图3(对应RMSProp算法中的7.7 AdaDelta算法 - 图4),在时间步7.7 AdaDelta算法 - 图5,同RMSProp算法一样计算

7.7 AdaDelta算法 - 图6%20%5Cboldsymbol%7Bg%7Dt%20%5Codot%20%5Cboldsymbol%7Bg%7D_t.%20%0A#card=math&code=%5Cboldsymbol%7Bs%7D_t%20%5Cleftarrow%20%5Crho%20%5Cboldsymbol%7Bs%7D%7Bt-1%7D%20%2B%20%281%20-%20%5Crho%29%20%5Cboldsymbol%7Bg%7D_t%20%5Codot%20%5Cboldsymbol%7Bg%7D_t.%20%0A)

与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量7.7 AdaDelta算法 - 图7,其元素同样在时间步0时被初始化为0。我们使用7.7 AdaDelta算法 - 图8来计算自变量的变化量:

7.7 AdaDelta算法 - 图9

其中7.7 AdaDelta算法 - 图10是为了维持数值稳定性而添加的常数,如7.7 AdaDelta算法 - 图11。接着更新自变量:

7.7 AdaDelta算法 - 图12

最后,我们使用7.7 AdaDelta算法 - 图13来记录自变量变化量7.7 AdaDelta算法 - 图14按元素平方的指数加权移动平均:

7.7 AdaDelta算法 - 图15%20%5Cboldsymbol%7Bg%7D’t%20%5Codot%20%5Cboldsymbol%7Bg%7D’_t.%20%0A#card=math&code=%5CDelta%5Cboldsymbol%7Bx%7D_t%20%5Cleftarrow%20%5Crho%20%5CDelta%5Cboldsymbol%7Bx%7D%7Bt-1%7D%20%2B%20%281%20-%20%5Crho%29%20%5Cboldsymbol%7Bg%7D%27_t%20%5Codot%20%5Cboldsymbol%7Bg%7D%27_t.%20%0A)

可以看到,如不考虑7.7 AdaDelta算法 - 图16的影响,AdaDelta算法跟RMSProp算法的不同之处在于使用7.7 AdaDelta算法 - 图17来替代学习率7.7 AdaDelta算法 - 图18

7.7.2 从零开始实现

AdaDelta算法需要对每个自变量维护两个状态变量,即7.7 AdaDelta算法 - 图197.7 AdaDelta算法 - 图20。我们按AdaDelta算法中的公式实现该算法。

  1. %matplotlib inline
  2. import torch
  3. import sys
  4. sys.path.append("..")
  5. import d2lzh_pytorch as d2l
  6. features, labels = d2l.get_data_ch7()
  7. def init_adadelta_states():
  8. s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
  9. delta_w, delta_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
  10. return ((s_w, delta_w), (s_b, delta_b))
  11. def adadelta(params, states, hyperparams):
  12. rho, eps = hyperparams['rho'], 1e-5
  13. for p, (s, delta) in zip(params, states):
  14. s[:] = rho * s + (1 - rho) * (p.grad.data**2)
  15. g = p.grad.data * torch.sqrt((delta + eps) / (s + eps))
  16. p.data -= g
  17. delta[:] = rho * delta + (1 - rho) * g * g

使用超参数7.7 AdaDelta算法 - 图21来训练模型。

  1. d2l.train_ch7(adadelta, init_adadelta_states(), {'rho': 0.9}, features, labels)

输出:

  1. loss: 0.243728, 0.062991 sec per epoch

7.7_output1.png

7.7.3 简洁实现

通过名称为Adadelta的优化器方法,我们便可使用PyTorch提供的AdaDelta算法。它的超参数可以通过rho来指定。

  1. d2l.train_pytorch_ch7(torch.optim.Adadelta, {'rho': 0.9}, features, labels)

输出:

  1. loss: 0.242104, 0.047702 sec per epoch

7.7_output2.png

小结

  • AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

参考文献

[1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arXiv preprint arXiv:1212.5701.


注:除代码外本节与原书此节基本相同,原书传送门