210 - Basics in DL | 深度学习的基础操作 - 21012 - 三层神经网络可以逼近任何一个非线性函数，为什么需要深度神经网络? - 《210 - DL

一般来说，三层神经网络可以逼近任何一个非线性函数，为什么还需要深度神经网络? - 石冠亚的回答 - 知乎 https://www.zhihu.com/question/344962955/answer/1961639563

因为从approximation error（拟合误差）的角度，无论是实验结果来看，还是从理论分析来看，大部分情况下“深”都比“宽”更有效。
理论层面的话，分享一篇我比较喜欢的paper里的结果（Why Deep Neural Networks for Function Approximation?，ICLR 2017），作者是UIUC的Shiyu Liang和R. Srikant。
简单来说，这篇文章证明了，如果想要达到 21012 - 三层神经网络可以逼近任何一个非线性函数，为什么需要深度神经网络? - 图1 的拟合误差（approximation error），深度为常数（与无关）的神经网络需要个神经元，也就是说，shallow neural network的神经元数量随着精度（）的上升多项式增长。然而，深度为 21012 - 三层神经网络可以逼近任何一个非线性函数，为什么需要深度神经网络? - 图5 的神经网络只需要个神经元，也就是说，deep neural network的神经元数量随着精度的上升对数增长。换言之，想要达到同样的拟合误差，更深的神经网络需要的神经元数量远小于层数少的神经网络。