一般来说,三层神经网络可以逼近任何一个非线性函数,为什么还需要深度神经网络? - 石冠亚的回答 - 知乎 https://www.zhihu.com/question/344962955/answer/1961639563

    因为从approximation error(拟合误差)的角度,无论是实验结果来看,还是从理论分析来看,大部分情况下“深”都比“宽”更有效。
    理论层面的话,分享一篇我比较喜欢的paper里的结果(Why Deep Neural Networks for Function Approximation?,ICLR 2017),作者是UIUC的Shiyu Liang和R. Srikant。
    简单来说,这篇文章证明了,如果想要达到 21012 - 三层神经网络可以逼近任何一个非线性函数,为什么需要深度神经网络? - 图1 的拟合误差(approximation error),深度为常数(与21012 - 三层神经网络可以逼近任何一个非线性函数,为什么需要深度神经网络? - 图2 无关)的神经网络需要 21012 - 三层神经网络可以逼近任何一个非线性函数,为什么需要深度神经网络? - 图3 个神经元,也就是说,shallow neural network的神经元数量随着精度( 21012 - 三层神经网络可以逼近任何一个非线性函数,为什么需要深度神经网络? - 图4 )的上升多项式增长。然而,深度为 21012 - 三层神经网络可以逼近任何一个非线性函数,为什么需要深度神经网络? - 图5的神经网络只需要 21012 - 三层神经网络可以逼近任何一个非线性函数,为什么需要深度神经网络? - 图6 个神经元,也就是说,deep neural network的神经元数量随着精度的上升对数增长。换言之,想要达到同样的拟合误差,更深的神经网络需要的神经元数量远小于层数少的神经网络。