• 数值稳定性

    当神经网络的层数过多时,随着数值的传递,以正向传播为例,若干个数相乘后可能会导致最终结果很小或很大,就好比3.15 数值稳定性和模型初始化 - 图13.15 数值稳定性和模型初始化 - 图2相差巨大。反向传播的时候梯度也会遇到类似问题。因此,数值的衰减爆炸都是可能要面对的问题。

    • 模型初始化

    关于参数初始化的问题在以前的笔记中已经讲过了,所以要避免给参数赋一个相同的初始值,PyTorch 已经为我们搭建的网络自动进行了初始化,一般不用自己再设置。
    还有一种常见初始化模型Xavier随机初始化,输出神经元数量为a,输出神经元数量为b,参数初始值服从以下分布,
    3.15 数值稳定性和模型初始化 - 图3