问题

梯度消失
底层梯度训练慢
计算
image.png