https://blog.csdn.net/qq_25737169/article/details/78847691

    1. 成因:两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。梯度爆炸一般出现在深层网络权值初始化值太大的情况下。
    2. 解决方法:
      1. 使用relu等激活函数,使得导数一直为1
      2. batchnorm:反向传播式子中有x xx的存在,所以x的大小影响了梯度的消失和爆炸,batchnorm就是通过对每一层的输出规范为均值和方差一致的方法,消除了x带来的放大缩小的影响


    1. 残差结构
    2. LSTM