梯度下降优化算法综述

梯度下降优化算法综述 - 图1

  1. 梯度下降算法被广泛的应用机器学习与深度学习中,同时pytorchtensorflow等流行的机器学习库,都有对经典优化算法的实现。本文将对以下三个部分进行介绍。
  1. 梯度下降算法简介
  2. 各种优化算法的对比
  3. pytorch优化器源码剖析

本文旨在帮助读者建立关于不同算法优化梯度下降的行为的感觉,以帮助读者在研究中应用他们。在第2节中,我们首先要研究梯度下降的不同变体。然后,我们将在第3节中简要总结训练过程中面临的挑战。随后,在第4节中,我们将介绍最常见的优化算法,展示它们解决这些挑战的动机,以及这如何导致其更新规则的推导。之后,在第5节中,我们将简要介绍在并行和分布式设置中优化梯度下降的算法和体系结构。最后,我们将在第6节中考虑有助于优化梯度下降的其他策略。

什么是梯度下降算法

目的:通过迭代的方式搜索出目标函数的全局最小值

方法:通过

优化器

以下为笔者阅读pytorch源码和相关论文,整理出来的pytorch实现的常用优化器

优化器 简介 Pytorch是否实现 发表时间 论文地址
Adadelta 一种自适应学习速率方法 2012 https://arxiv.org/abs/1212.5701
Adagrad Adaptive Subgradient Methods for Online Learning and Stochastic Optimization 2011 http://jmlr.org/papers/v12/duchi11a.html
Adam A Method for Stochastic Optimization 2014 https://arxiv.org/abs/1412.6980
https://openreview.net/forum?id=ryQu7f-RZ
AdamW A Method for Stochastic Optimization 2014 https://arxiv.org/abs/1412.6980
SparseAdam A Method for Stochastic Optimization 2014 https://arxiv.org/abs/1412.6980
Adamax A Method for Stochastic Optimization 2014 https://arxiv.org/abs/1412.6980
RAdam On the variance of the adaptive learning rate and beyond 2020 https://arxiv.org/abs/1908.03265
NAdam Incorporating Nesterov Momentum into Adam 2016 https://openreview.net/forum?id=OM0jvwB8jIp57ZJjtNEZ
SGD 随机梯度下降法 http://www.cs.toronto.edu/~hinton/absps/momentum.pdf
ASGD Acceleration of stochastic approximation by averaging https://dl.acm.org/citation.cfm?id=131098

Batch gradient descent

梯度下降优化算法综述 - 图2%0A#card=math&code=%5Ctheta%20%3D%20%5Ctheta%20-%20%5Ceta%20%5Ccdot%20%5Cnabla_%5Ctheta%20J%28%20%5Ctheta%29%0A&id=k97yw)

由于我们需要计算整个数据集的梯度来只执行一次更新,因此批处理梯度下降可能非常慢,并且对于不适合内存的数据集是难以处理的。批处理梯度下降也不允许我们在线更新我们的模型,即。有新的例子。在代码中,批处理梯度下降似乎是这样的:

  1. for i in range(nb_epochs):
  2. params_grad = evaluate_gradient(loss_function, data, params)
  3. params = params - learning_rate * params_grad
  1. 对于预定义的时代数,我们首先计算整个数据集w.r.t.的损失函数的梯度向量params_grad我们的参数向量参数。请注意,最先进的深度学习库提供了自动分化,有效地计算梯度w.r.t.一些参数。如果你自己推导出梯度,那么梯度检查是一个好主意。
  2. 然后,我们沿着梯度的方向更新参数,学习率决定我们执行的更新有多大。保证了批梯度下降收敛于凸误差曲面的全局最小值,并收敛到非凸曲面的局部最小值。

SGD

http://www.cs.toronto.edu/~hinton/absps/momentum.pdf

梯度下降优化算法综述 - 图3

梯度下降优化算法综述 - 图4

ASGD

  1. [https://dl.acm.org/citation.cfm?id=131098](https://dl.acm.org/citation.cfm?id=131098)

Adadelta

https://arxiv.org/abs/1212.5701

在本技术报告中,我们引入了一种仅基于一阶信息的新学习率方法,在MNIST和大规模语音识别数据集上显示了良好的效果。与SGD相比,该方法的计算开销很小,同时提供了每个维的学习率。尽管输入数据类型、隐藏单元数量、非线性和分布副本数量存在很大差异,但超参数不需要调整,这表明adadelta是一种鲁棒的学习率方法,可以应用于各种情况。

Adagrad

在线学习和随机优化的自适应次梯度方法

http://jmlr.org/papers/v12/duchi11a.html

我们提出了一个新的子梯度方法家族,动态地结合在早期迭代中观察到的数据的几何知识,以执行更多信息的基于梯度的学习。隐喻上,这种适应使我们能够以非常预测但很少看到的形式在干草堆中找到针。我们的范例源于在随机优化和在线学习方面的最新进展,这些进展使用近端函数来控制算法的梯度步骤。我们描述并分析了一种自适应修改近端函数的装置,它显著简化了学习速率的设置,并导致遗憾保证被证明与事后可以选择的最佳近端函数一样好。本文给出了针对具有常见和重要的正则化函数和域约束的经验风险最小化问题的几种有效算法。我们通过实验研究了我们的理论分析,并表明,自适应亚梯度方法优于最先进的,但非自适应的,亚梯度算法。

Adam

[1412.6980] Adam: A Method for Stochastic Optimization (arxiv.org)

我们介绍了一种基于低阶矩的自适应估计的基于一阶梯度的随机目标函数优化算法Adam。该方法易于实现,计算效率高,内存要求小,对梯度的对角线重新缩放不变,非常适合在数据和/或参数方面较大的问题。该方法也适用于非平稳目标和具有非常有噪声和/或稀疏梯度的问题。超参数有直观的解释,通常不需要什么调优。讨论了与亚当受到启发的相关算法的一些联系。我们还分析了算法的理论收敛性,并给出了与在线凸优化框架下的结果相似的遗憾界。实证结果表明,亚当在实践中效果较好,且优于其他随机优化方法。最后,我们讨论了基于无限范数的亚当的一个变体AdaMax。

梯度下降优化算法综述 - 图5%7D%2C%20%5Cbeta1%2C%20%5Cbeta_2%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Ctext%7B%20(betas)%7D%2C%5Ctheta_0%20%5Ctext%7B%20(params)%7D%2Cf(%5Ctheta)%20%5Ctext%7B%20(objective)%7D%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B13mm%7D%20%20%20%20%20%20%5Clambda%20%5Ctext%7B%20(weight%20decay)%7D%2C%20%20%5C%3A%20amsgrad%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binitialize%7D%20%3A%20%20m_0%20%5Cleftarrow%200%20%5Ctext%7B%20(%20first%20moment)%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20v_0%5Cleftarrow%200%20%5Ctext%7B%20(second%20moment)%7D%2C%5C%3A%20%5Cwidehat%7Bv_0%7D%5E%7Bmax%7D%5Cleftarrow%200%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Bfor%7D%20%5C%3A%20t%3D1%20%5C%3A%20%5Ctextbf%7Bto%7D%20%5C%3A%20%5Cldots%20%5C%3A%20%5Ctextbf%7Bdo%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dg_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cnabla%7B%5Ctheta%7D%20ft%20(%5Ctheta%7Bt-1%7D)%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctextbf%7Bif%7D%20%5C%3A%20%5Clambda%20%5Cneq%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20gt%20%5Cleftarrow%20g_t%20%2B%20%5Clambda%20%20%5Ctheta%7Bt-1%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dmt%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_1%20m%7Bt-1%7D%20%2B%20(1%20-%20%5Cbeta1)%20g_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dv_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_2%20v%7Bt-1%7D%20%2B%20(1-%5Cbeta2)%20g%5E2_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bm_t%7D%20%5Cleftarrow%20%20%20m_t%2F%5Cbig(1-%5Cbeta_1%5Et%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bv_t%7D%20%5Cleftarrow%20%20%20v_t%2F%5Cbig(1-%5Cbeta_2%5Et%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctextbf%7Bif%7D%20%5C%3A%20amsgrad%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Cwidehat%7Bv_t%7D%5E%7Bmax%7D%20%5Cleftarrow%20%5Cmathrm%7Bmax%7D(%5Cwidehat%7Bv_t%7D%5E%7Bmax%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cwidehat%7Bv_t%7D)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Cwidehat%7Bmt%7D%2F%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cbig(%5Csqrt%7B%5Cwidehat%7Bv_t%7D%5E%7Bmax%7D%7D%20%2B%20%5Cepsilon%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctextbf%7Belse%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Cwidehat%7Bmt%7D%2F%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cbig(%5Csqrt%7B%5Cwidehat%7Bv_t%7D%7D%20%2B%20%5Cepsilon%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Cbf%7Breturn%7D%20%5C%3A%20%20%5Ctheta_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binput%7D%20%20%20%20%20%20%3A%20%5Cgamma%20%5Ctext%7B%20%28lr%29%7D%2C%20%5Cbeta_1%2C%20%5Cbeta_2%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Ctext%7B%20%28betas%29%7D%2C%5Ctheta_0%20%5Ctext%7B%20%28params%29%7D%2Cf%28%5Ctheta%29%20%5Ctext%7B%20%28objective%29%7D%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B13mm%7D%20%20%20%20%20%20%5Clambda%20%5Ctext%7B%20%28weight%20decay%29%7D%2C%20%20%5C%3A%20amsgrad%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binitialize%7D%20%3A%20%20m_0%20%5Cleftarrow%200%20%5Ctext%7B%20%28%20first%20moment%29%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20v_0%5Cleftarrow%200%20%5Ctext%7B%20%28second%20moment%29%7D%2C%5C%3A%20%5Cwidehat%7Bv_0%7D%5E%7Bmax%7D%5Cleftarrow%200%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Bfor%7D%20%5C%3A%20t%3D1%20%5C%3A%20%5Ctextbf%7Bto%7D%20%5C%3A%20%5Cldots%20%5C%3A%20%5Ctextbf%7Bdo%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dg_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cnabla%7B%5Ctheta%7D%20ft%20%28%5Ctheta%7Bt-1%7D%29%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctextbf%7Bif%7D%20%5C%3A%20%5Clambda%20%5Cneq%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20gt%20%5Cleftarrow%20g_t%20%2B%20%5Clambda%20%20%5Ctheta%7Bt-1%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dmt%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_1%20m%7Bt-1%7D%20%2B%20%281%20-%20%5Cbeta1%29%20g_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dv_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_2%20v%7Bt-1%7D%20%2B%20%281-%5Cbeta2%29%20g%5E2_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bm_t%7D%20%5Cleftarrow%20%20%20m_t%2F%5Cbig%281-%5Cbeta_1%5Et%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bv_t%7D%20%5Cleftarrow%20%20%20v_t%2F%5Cbig%281-%5Cbeta_2%5Et%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctextbf%7Bif%7D%20%5C%3A%20amsgrad%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Cwidehat%7Bv_t%7D%5E%7Bmax%7D%20%5Cleftarrow%20%5Cmathrm%7Bmax%7D%28%5Cwidehat%7Bv_t%7D%5E%7Bmax%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cwidehat%7Bv_t%7D%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Cwidehat%7Bmt%7D%2F%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cbig%28%5Csqrt%7B%5Cwidehat%7Bv_t%7D%5E%7Bmax%7D%7D%20%2B%20%5Cepsilon%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctextbf%7Belse%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Cwidehat%7Bm_t%7D%2F%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cbig%28%5Csqrt%7B%5Cwidehat%7Bv_t%7D%7D%20%2B%20%5Cepsilon%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Cbf%7Breturn%7D%20%5C%3A%20%20%5Ctheta_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A&id=o0u4q)

Adamax

我们介绍了一种简单且计算效率高的基于梯度的随机目标函数优化算法。我们的方法旨在针对具有大数据集和/或高维参数空间的机器学习问题。该方法结合了最近流行的两种优化方法的优点:AdaGrad处理稀疏梯度的能力和RMSProp处理非平稳目标的能力。该方法实现简单,内存少。实验证实了对凸问题中收敛率的分析。总的来说,我们发现Adam是鲁棒的,并且非常适合现场机器学习中广泛的非凸优化问题。

AdamW

  1. [https://arxiv.org/abs/1412.6980](https://arxiv.org/abs/1412.6980)
  2. [https://arxiv.org/abs/1711.05101](https://arxiv.org/abs/1711.05101)
  3. [https://openreview.net/forum?id=ryQu7f-RZ](https://openreview.net/forum?id=ryQu7f-RZ)

NAdam

  1. [https://openreview.net/forum?id=OM0jvwB8jIp57ZJjtNEZ](https://openreview.net/forum?id=OM0jvwB8jIp57ZJjtNEZ)

梯度下降优化算法综述 - 图6%7D%2C%20%5C%3A%20%5Cbeta1%2C%5Cbeta_2%20%5Ctext%7B%20(betas)%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%3A%20%5Ctheta_0%20%5Ctext%7B%20(params)%7D%2C%20%5C%3A%20f(%5Ctheta)%20%5Ctext%7B%20(objective)%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B13mm%7D%20%5C%3A%20%5Clambda%20%5Ctext%7B%20(weight%20decay)%7D%2C%20%5C%3A%5Cpsi%20%5Ctext%7B%20(momentum%20decay)%7D%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binitialize%7D%20%3A%20%20m_0%20%5Cleftarrow%200%20%5Ctext%7B%20(%20first%20moment)%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20v_0%20%5Cleftarrow%200%20%5Ctext%7B%20(%20second%20moment)%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Bfor%7D%20%5C%3A%20t%3D1%20%5C%3A%20%5Ctextbf%7Bto%7D%20%5C%3A%20%5Cldots%20%5C%3A%20%5Ctextbf%7Bdo%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dg_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cnabla%7B%5Ctheta%7D%20ft%20(%5Ctheta%7Bt-1%7D)%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20%5Clambda%20%5Cneq%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20gt%20%5Cleftarrow%20g_t%20%2B%20%5Clambda%20%5Ctheta%7Bt-1%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20%5Cmut%20%5Cleftarrow%20%5Cbeta_1%20%5Cbig(1%20-%20%5Cfrac%7B1%7D%7B2%7D%20%200.96%5E%7Bt%20%5Cpsi%7D%20%5Cbig)%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20%5Cmu%7Bt%2B1%7D%20%5Cleftarrow%20%5Cbeta1%20%5Cbig(1%20-%20%5Cfrac%7B1%7D%7B2%7D%200.96%5E%7B(t%2B1)%5Cpsi%7D%5Cbig)%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dm_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_1%20m%7Bt-1%7D%20%2B%20(1%20-%20%5Cbeta1)%20g_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dv_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_2%20v%7Bt-1%7D%20%2B%20(1-%5Cbeta2)%20g%5E2_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bm_t%7D%20%5Cleftarrow%20%5Cmu%7Bt%2B1%7D%20mt%2F(1-%5Cprod%7Bi%3D1%7D%5E%7Bt%2B1%7D%5Cmui)%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%20%5Chspace%7B11mm%7D%20%2B%20(1-%5Cmu_t)%20g_t%20%2F(1-%5Cprod%7Bi%3D1%7D%5E%7Bt%7D%20%5Cmu%7Bi%7D)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bv_t%7D%20%5Cleftarrow%20%20%20v_t%2F%5Cbig(1-%5Cbeta_2%5Et%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Cwidehat%7Bmt%7D%2F%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cbig(%5Csqrt%7B%5Cwidehat%7Bv_t%7D%7D%20%2B%20%5Cepsilon%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Cbf%7Breturn%7D%20%5C%3A%20%20%5Ctheta_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binput%7D%20%20%20%20%20%20%3A%20%5Cgamma_t%20%5Ctext%7B%20%28lr%29%7D%2C%20%5C%3A%20%5Cbeta_1%2C%5Cbeta_2%20%5Ctext%7B%20%28betas%29%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%3A%20%5Ctheta_0%20%5Ctext%7B%20%28params%29%7D%2C%20%5C%3A%20f%28%5Ctheta%29%20%5Ctext%7B%20%28objective%29%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B13mm%7D%20%5C%3A%20%5Clambda%20%5Ctext%7B%20%28weight%20decay%29%7D%2C%20%5C%3A%5Cpsi%20%5Ctext%7B%20%28momentum%20decay%29%7D%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binitialize%7D%20%3A%20%20m_0%20%5Cleftarrow%200%20%5Ctext%7B%20%28%20first%20moment%29%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20v_0%20%5Cleftarrow%200%20%5Ctext%7B%20%28%20second%20moment%29%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Bfor%7D%20%5C%3A%20t%3D1%20%5C%3A%20%5Ctextbf%7Bto%7D%20%5C%3A%20%5Cldots%20%5C%3A%20%5Ctextbf%7Bdo%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dg_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cnabla%7B%5Ctheta%7D%20ft%20%28%5Ctheta%7Bt-1%7D%29%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20%5Clambda%20%5Cneq%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20gt%20%5Cleftarrow%20g_t%20%2B%20%5Clambda%20%5Ctheta%7Bt-1%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20%5Cmut%20%5Cleftarrow%20%5Cbeta_1%20%5Cbig%281%20-%20%5Cfrac%7B1%7D%7B2%7D%20%200.96%5E%7Bt%20%5Cpsi%7D%20%5Cbig%29%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20%5Cmu%7Bt%2B1%7D%20%5Cleftarrow%20%5Cbeta1%20%5Cbig%281%20-%20%5Cfrac%7B1%7D%7B2%7D%200.96%5E%7B%28t%2B1%29%5Cpsi%7D%5Cbig%29%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dm_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_1%20m%7Bt-1%7D%20%2B%20%281%20-%20%5Cbeta1%29%20g_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dv_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cbeta_2%20v%7Bt-1%7D%20%2B%20%281-%5Cbeta2%29%20g%5E2_t%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bm_t%7D%20%5Cleftarrow%20%5Cmu%7Bt%2B1%7D%20mt%2F%281-%5Cprod%7Bi%3D1%7D%5E%7Bt%2B1%7D%5Cmui%29%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%20%5Chspace%7B11mm%7D%20%2B%20%281-%5Cmu_t%29%20g_t%20%2F%281-%5Cprod%7Bi%3D1%7D%5E%7Bt%7D%20%5Cmu%7Bi%7D%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Cwidehat%7Bv_t%7D%20%5Cleftarrow%20%20%20v_t%2F%5Cbig%281-%5Cbeta_2%5Et%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Cwidehat%7Bm_t%7D%2F%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cbig%28%5Csqrt%7B%5Cwidehat%7Bv_t%7D%7D%20%2B%20%5Cepsilon%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Cbf%7Breturn%7D%20%5C%3A%20%20%5Ctheta_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A&id=tgCA0)

RAdam

  1. [https://arxiv.org/abs/1908.03265](https://arxiv.org/abs/1908.03265)

SparseAdam

https://arxiv.org/abs/1412.6980

Rprop

反向传播

RMSprop

https://arxiv.org/pdf/1308.0850v5.pdf

梯度下降优化算法综述 - 图7%7D%2C%5C%3A%20%5Cgamma%20%5Ctext%7B%20(lr)%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%3A%20%5Ctheta0%20%5Ctext%7B%20(params)%7D%2C%20%5C%3A%20f(%5Ctheta)%20%5Ctext%7B%20(objective)%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B13mm%7D%20%20%20%5Clambda%20%5Ctext%7B%20(weight%20decay)%7D%2C%5C%3A%20%5Cmu%20%5Ctext%7B%20(momentum)%7D%2C%5C%3A%20centered%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binitialize%7D%20%3A%20v_0%20%5Cleftarrow%200%20%5Ctext%7B%20(square%20average)%7D%2C%20%5C%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Ctextbf%7Bb%7D_0%20%5Cleftarrow%200%20%5Ctext%7B%20(buffer)%7D%2C%20%5C%3A%20g%5E%7Bave%7D_0%20%5Cleftarrow%200%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Bfor%7D%20%5C%3A%20t%3D1%20%5C%3A%20%5Ctextbf%7Bto%7D%20%5C%3A%20%5Cldots%20%5C%3A%20%5Ctextbf%7Bdo%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dg_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cnabla%7B%5Ctheta%7D%20ft%20(%5Ctheta%7Bt-1%7D)%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20%5Clambda%20%5Cneq%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20gt%20%5Cleftarrow%20g_t%20%2B%20%5Clambda%20%20%5Ctheta%7Bt-1%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dvt%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Calpha%20v%7Bt-1%7D%20%2B%20(1%20-%20%5Calpha)%20g%5E2t%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Chspace%7B8mm%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20%5Ctilde%7Bv_t%7D%20%5Cleftarrow%20v_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20centered%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20g%5E%7Bave%7D_t%20%5Cleftarrow%20g%5E%7Bave%7D%7Bt-1%7D%20%5Calpha%20%2B%20(1-%5Calpha)%20gt%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20%5Ctilde%7Bv_t%7D%20%5Cleftarrow%20%5Ctilde%7Bv_t%7D%20-%20%20%5Cbig(g%5E%7Bave%7D%7Bt%7D%20%5Cbig)%5E2%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20%5Cmu%20%3E%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20%5Ctextbf%7Bb%7Dt%5Cleftarrow%20%5Cmu%20%5Ctextbf%7Bb%7D%7Bt-1%7D%20%2B%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20gt%2F%20%5Cbig(%5Csqrt%7B%5Ctilde%7Bv_t%7D%7D%20%2B%20%20%5Cepsilon%20%5Cbig)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Ctextbf%7Bb%7Dt%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20else%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Ctheta_t%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Ctheta%7Bt-1%7D%20-%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cgamma%20%20gt%2F%20%5Cbig(%5Csqrt%7B%5Ctilde%7Bv_t%7D%7D%20%2B%20%5Cepsilon%20%5Cbig)%20%20%5Chspace%7B3mm%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Cbf%7Breturn%7D%20%5C%3A%20%20%5Ctheta_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binput%7D%20%20%20%20%20%20%3A%20%5Calpha%20%5Ctext%7B%20%28alpha%29%7D%2C%5C%3A%20%5Cgamma%20%5Ctext%7B%20%28lr%29%7D%2C%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%3A%20%5Ctheta_0%20%5Ctext%7B%20%28params%29%7D%2C%20%5C%3A%20f%28%5Ctheta%29%20%5Ctext%7B%20%28objective%29%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B13mm%7D%20%20%20%5Clambda%20%5Ctext%7B%20%28weight%20decay%29%7D%2C%5C%3A%20%5Cmu%20%5Ctext%7B%20%28momentum%29%7D%2C%5C%3A%20centered%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Binitialize%7D%20%3A%20v_0%20%5Cleftarrow%200%20%5Ctext%7B%20%28square%20average%29%7D%2C%20%5C%3A%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Ctextbf%7Bb%7D_0%20%5Cleftarrow%200%20%5Ctext%7B%20%28buffer%29%7D%2C%20%5C%3A%20g%5E%7Bave%7D_0%20%5Cleftarrow%200%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Ctextbf%7Bfor%7D%20%5C%3A%20t%3D1%20%5C%3A%20%5Ctextbf%7Bto%7D%20%5C%3A%20%5Cldots%20%5C%3A%20%5Ctextbf%7Bdo%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dg_t%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Cnabla%7B%5Ctheta%7D%20ft%20%28%5Ctheta%7Bt-1%7D%29%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20%5Clambda%20%5Cneq%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20gt%20%5Cleftarrow%20g_t%20%2B%20%5Clambda%20%20%5Ctheta%7Bt-1%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dvt%20%20%20%20%20%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Calpha%20v%7Bt-1%7D%20%2B%20%281%20-%20%5Calpha%29%20g%5E2t%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Chspace%7B8mm%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20%5Ctilde%7Bv_t%7D%20%5Cleftarrow%20v_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20centered%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20g%5E%7Bave%7D_t%20%5Cleftarrow%20g%5E%7Bave%7D%7Bt-1%7D%20%5Calpha%20%2B%20%281-%5Calpha%29%20gt%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20%5Ctilde%7Bv_t%7D%20%5Cleftarrow%20%5Ctilde%7Bv_t%7D%20-%20%20%5Cbig%28g%5E%7Bave%7D%7Bt%7D%20%5Cbig%29%5E2%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7Dif%20%5C%3A%20%5Cmu%20%3E%200%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20%5Ctextbf%7Bb%7Dt%5Cleftarrow%20%5Cmu%20%5Ctextbf%7Bb%7D%7Bt-1%7D%20%2B%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20gt%2F%20%5Cbig%28%5Csqrt%7B%5Ctilde%7Bv_t%7D%7D%20%2B%20%20%5Cepsilon%20%5Cbig%29%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%20%5Ctheta_t%20%5Cleftarrow%20%5Ctheta%7Bt-1%7D%20-%20%5Cgamma%20%5Ctextbf%7Bb%7Dt%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B5mm%7D%20else%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Chspace%7B10mm%7D%5Ctheta_t%20%20%20%20%20%20%5Cleftarrow%20%20%20%5Ctheta%7Bt-1%7D%20-%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5Cgamma%20%20g_t%2F%20%5Cbig%28%5Csqrt%7B%5Ctilde%7Bv_t%7D%7D%20%2B%20%5Cepsilon%20%5Cbig%29%20%20%5Chspace%7B3mm%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Cbf%7Breturn%7D%20%5C%3A%20%20%5Ctheta_t%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%20%20%20%20%20%26%5Crule%7B110mm%7D%7B0.4pt%7D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%5C%5C%5B-1.ex%5D%0A%20%20%20%20%20%20%20%5Cend%7Baligned%7D%0A&id=g6BOc)

参考文献

https://arxiv.org/pdf/1609.04747.pdf