initialization
1.不同的初始化导致不同的结果
2.随机初始化是用来break symmetry,并确保不同的hidden unit可以学习不同的东西
3.不要初始到太大的值
4.对于有ReLU激活的网络,He初始化工作得很好。
regularization
1.正则化将帮助你减少过拟合。
2.正规化会使你的weight降低。
3.L2正则化和Dropout是两种非常有效的正则化技术。
gradient checking
1.梯度检查验证了来自反向传播的梯度和梯度的数值近似(用正向传播计算)之间的紧密性。
2.梯度检查很慢,所以我们不会在每次迭代训练时都运行它。通常只会运行它以确保代码是正确的,然后关闭它,并在实际学习过程中使用backprop。