数值稳定性 当神经网络的层数过多时,随着数值的传递,以正向传播为例,若干个数相乘后可能会导致最终结果很小或很大,就好比和相差巨大。反向传播的时候梯度也会遇到类似问题。因此,数值的衰减和爆炸都是可能要面对的问题。 模型初始化 关于参数初始化的问题在以前的笔记中已经讲过了,所以要避免给参数赋一个相同的初始值,PyTorch 已经为我们搭建的网络自动进行了初始化,一般不用自己再设置。还有一种常见初始化模型Xavier随机初始化,输出神经元数量为a,输出神经元数量为b,参数初始值服从以下分布,