基础理论
无论数据分布如何,以的概率:<br /> 即:测试集误差 小于 训练误差加上一个上限值。<br /> R表示训练集数量,R越大,越小;M表示模型容量(VC维),M越大,越小,实际上VC维难以确定。
FAQ
1、为什么深度学习有好的泛化性?
原因未知,有猜想说 DNN自带 正则。
深度学习模型的特点是:模型容量非常大,但是不容易过拟合。
2、为什么有更深网络,而不是更宽网络?
首先,Universal Approximation Theorem:足够多的神经元能够拟合任何函数。
其次,深层网络比宽网络更具有表达型[3][4]。
简单的例子: 。
深层的网络表达更高阶的多项式,而高阶的多项式低阶的。
综上:深层网络更能有效地拟合任何函数。或者说,达到同样的准确率,深度网络需要的神经元个数更少。
3、浅层和深层神经元有什么区别?
越是浅层的网络越重要,文献[4]通过在不同层的参数上加噪声来验证不同层对预测的影响,实验结果表明,浅层的参数加噪声后,准确率下降很多。
参考资料
1、李宏毅2018年:机器学习及其深层与结构化 (2018,Spring)。B站链接
2、Hoeffding不等式及泛化误差上界
3、RazvanP,Yoshua Bengio,On the number of response regions of deep feed forward networks with piece-wise linear activations,ICLR,2014.
4、Maithra Raghu,On the Expressive Power of Deep Neural Networks,ICML,2017.