1.10 梯度消失与梯度爆炸
在深层网络中,对于指数运算,很容易出现数值过大或过小,分别对应梯度爆炸和梯度减小
1.11 深度网络的权重初始化
通过在初始化权重时进行适当调整(如,随机数乘以上层节点数的倒数的平方根),可以减轻梯度爆炸或梯度消失
1.12 梯度的数值逼近
数值逼近(数值解)求导可用于检查梯度计算是否正确
双边数值逼近(two sided numerical approximations)的精度要高于单边逼近
1.13 梯度检验
将所有参数重排(reshape、拉平)后连接成一个大向量θ
检查J(θ)的数值解导数是否足够接近解析解导数d(θ)(反向传播中的导数),如果不够接近,说明算法可能有bug