initialization
    1.不同的初始化导致不同的结果
    2.随机初始化是用来break symmetry,并确保不同的hidden unit可以学习不同的东西
    3.不要初始到太大的值
    4.对于有ReLU激活的网络,He初始化工作得很好。

    regularization
    1.正则化将帮助你减少过拟合。
    2.正规化会使你的weight降低。
    3.L2正则化和Dropout是两种非常有效的正则化技术。

    gradient checking
    1.梯度检查验证了来自反向传播的梯度和梯度的数值近似(用正向传播计算)之间的紧密性。
    2.梯度检查很慢,所以我们不会在每次迭代训练时都运行它。通常只会运行它以确保代码是正确的,然后关闭它,并在实际学习过程中使用backprop。