RNN 的梯度消失不是总梯度和变为 0, 而是当前时刻的梯度被近距离时刻的梯度主导,而忽略和远距离时刻的梯度,从而导致 RNN 能够看的距离不够远。RNN 串行化处理序列,而 transformer 是并行化处理。