1、介绍adam?
    adam融合了adagrad跟momentum的优点,既考虑了历史梯度的一阶平滑值,又考虑了历史梯度平方的一阶平滑值。

    2、L1遇到不可导点怎么办?
    L1可以让模型参数稀疏化、防止模型过拟合;遇到不可到点,用次梯度来解决,即赋予不可导点一个伪梯度。