深度学习动机Vanishing Gradient in FC/CNN神经网络基础梯度计算小结激活函数参数初始化学习率策略AttentionBias in AIInterpreting/Understanding Models