基础理论

  1. 无论数据分布如何,以![](https://cdn.nlark.com/yuque/__latex/d25b952b777249aabed0b339dd63479b.svg#card=math&code=1-%5Cdelta&height=18&width=36)的概率:![](https://cdn.nlark.com/yuque/__latex/43fc6751e0cde82f68ddb13086dedcf5.svg#card=math&code=E_%7Btest%7D%5Cle%20E_%7Btrain%7D%2B%5COmega%28R%2CM%2C%5Cdelta%29%EF%BC%8C%5COmega%28R%2CM%2C%5Cdelta%29%20%3D%20%5Csqrt%7B%5Cfrac%7B1%7D%7B2R%7D%28logM%2Blog%5Cfrac%7B1%7D%7B%5Cdelta%7D%29%7D&height=45&width=465)<br /> 即:测试集误差 小于 训练误差加上一个上限值。<br /> R表示训练集数量,R越大,![](https://cdn.nlark.com/yuque/__latex/2e9ef3d6ef62a48d70720728d3e90e31.svg#card=math&code=%5COmega%0A&height=16&width=12)越小;M表示模型容量(VC维),M越大,![](https://cdn.nlark.com/yuque/__latex/2e9ef3d6ef62a48d70720728d3e90e31.svg#card=math&code=%5COmega%0A&height=16&width=12)越小,实际上VC维难以确定。

FAQ

1、为什么深度学习有好的泛化性?
原因未知,有猜想说 DNN自带 正则。
深度学习模型的特点是:模型容量非常大,但是不容易过拟合。

2、为什么有更深网络,而不是更宽网络?
首先,Universal Approximation Theorem:足够多的神经元能够拟合任何函数。
其次,深层网络比宽网络更具有表达型[3][4]。
简单的例子: 深度学习的泛化性 - 图1
深层的网络表达更高阶的多项式,而高阶的多项式低阶的。
综上:深层网络更能有效地拟合任何函数。或者说,达到同样的准确率,深度网络需要的神经元个数更少。

3、浅层和深层神经元有什么区别?
越是浅层的网络越重要,文献[4]通过在不同层的参数上加噪声来验证不同层对预测的影响,实验结果表明,浅层的参数加噪声后,准确率下降很多。

参考资料

1、李宏毅2018年:机器学习及其深层与结构化 (2018,Spring)。B站链接
2、Hoeffding不等式及泛化误差上界
3、RazvanP,Yoshua Bengio,On the number of response regions of deep feed forward networks with piece-wise linear activations,ICLR,2014.
4、Maithra Raghu,On the Expressive Power of Deep Neural Networks,ICML,2017.