相关部分有手写笔记(见GoodNotes)
复习网址这个写的一级棒。这里对自己的复习做一个整理。
指数加权平均(滑动平均)
这个简单,即
带偏差修正的指数加权平均
基于上一项的,公式是
分母即为偏差修正
momentum
意为动量,即在普通的梯度下降基础上加入了动量(本质是指数加权平均):
Nesterov Momentum(不重要)
简单来说,就是加了校正因子的momentum
AdaGrad
记它也同样通过英文来记,Adaptive Gradient,即不同的参数采用不同的学习率
优点:对于梯度很大的参数,学习率会变小,可以抑制下降的趋势;对于梯度很小的参数,效果相反,这样能让参数在平缓的地方下降快一些,不至于停滞。
缺点:一直累加有可能累加到很大,最后学习度趋近于0,导致梯度消失。
RMSprop
RMS表示root mean square ->均方根,所以它和AdaGrad一脉相承,可理解为加了权重的AdaGrad,也可理解成均方根的滑动平均。
Adam
记它的时候请记住这是一个终极大魔王,所有思想都整合到了。
英文全称为Adaptive Moment Estimation。Adaptive对应改进版的Adaptive Gradient(其实就是RMSprop), Moment对应Momentum, 还附带了偏差修正
(复习易忘点:动量momentum和自适应学习率Adaptive-root mean squre本质上都是滑动平均,所以这二者都需要偏差修正!)
momentum:
RMSprop:
偏差修正:
最后: