随着网络的加深,训练变得越来越困难,时间越来越长,原因可能是:

    • 参数多
    • 数据量大
    • 梯度消失
    • 损失函数坡度平缓

    为了解决上面这些问题,科学家们在深入研究网络表现的前提下,发现在下面这些方向上经过一些努力,可以给深度网络的训练带来或多或少的改善:

    • 权重矩阵初始化
    • 批量归一化
    • 梯度下降优化算法
    • 自适应学习率算法

    当然还有更多的方法,在本书中并不能一一列举,所以只给出一些常见的方法的原理解释,供大家参考。