1.10 梯度消失与梯度爆炸

在深层网络中,对于指数运算,很容易出现数值过大或过小,分别对应梯度爆炸和梯度减小
image.png

1.11 深度网络的权重初始化

通过在初始化权重时进行适当调整(如,随机数乘以上层节点数的倒数的平方根),可以减轻梯度爆炸或梯度消失
image.png

1.12 梯度的数值逼近

数值逼近(数值解)求导可用于检查梯度计算是否正确
image.png
双边数值逼近(two sided numerical approximations)的精度要高于单边逼近
image.png

1.13 梯度检验

将所有参数重排(reshape、拉平)后连接成一个大向量θ
image.png
检查J(θ)的数值解导数是否足够接近解析解导数d(θ)(反向传播中的导数),如果不够接近,说明算法可能有bug
image.png

1.14 梯度检验实践中的注意事项

image.png