Improving Deep Neural Networks:Hyperparameter - dropout 正则化 - 《MachineLearning》

dropout 正则化
如何实施 dropout
问题

dropout 正则化

    假设在训练图一这样的一个神经网络，且它存在过拟合，这就是 **dropout **所要处理的，我们复制这个神经网络，**dropout **会遍历网络的每一层，并设置消除神经网络中节点的概率。假设网络中的每一层，每个节点得以保留和消除的概率都是 0.5，设置完节点概率，我们会消除一些节点，然后删除掉从该节点进出的连线，最后得到一个节点更少，规模更小的网络，如图二然后用 **backprop **方法进行训练。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/22608420/1644482828868-3b7ec5a6-6af9-4039-a88c-5d673c38f8c6.png#clientId=udfd77549-9a1a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=140&id=u7c097183&margin=%5Bobject%20Object%5D&name=image.png&originHeight=280&originWidth=548&originalType=binary&ratio=1&rotation=0&showTitle=false&size=104487&status=done&style=none&taskId=ub752e7a5-bb90-4402-9b6e-69779ae9eed&title=&width=274)![image.png](https://cdn.nlark.com/yuque/0/2022/png/22608420/1644482760891-260f5598-97c2-491f-9371-b8ab66ea9e8b.png#clientId=udfd77549-9a1a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=180&id=uc3f83941&margin=%5Bobject%20Object%5D&name=image.png&originHeight=478&originWidth=616&originalType=binary&ratio=1&rotation=0&showTitle=false&size=190788&status=done&style=none&taskId=u2fb8e528-63f1-4a0b-8756-2f9b55a44c4&title=&width=232)![image.png](https://cdn.nlark.com/yuque/0/2022/png/22608420/1644482796420-ea65df89-ccd1-4ea3-836f-9447d9db1cbf.png#clientId=udfd77549-9a1a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=148&id=u577bc40e&margin=%5Bobject%20Object%5D&name=image.png&originHeight=394&originWidth=618&originalType=binary&ratio=1&rotation=0&showTitle=false&size=145556&status=done&style=none&taskId=uf26c04e5-cf7b-4fc2-9f64-3f3a1b9f328&title=&width=232)<br />图一                                                 图二                                  图三<br />        其内涵就是我们针对每个训练样本训练规模极小的网络（图三），每个节点都根据不完全一样的训练样本得到训练，有点提升每个节点学习的泛化能力那味。

如何实施 dropout

tips:
1.如果发现某些层比其它层更容易发生过拟合，可以把某些层的 keep-prob 值设置得比其它层更低，缺点是为了使用交叉验证，要搜索更多的超级参数
2.是在一些层上应用 dropout，而有些层不用 dropout，应用 dropout 的层只含有一个超级参数，就是 keep-prob。
3.dropout 在数据量少的情况下应用较多一点

问题

Q：drop和L2正则的区别
dropout 的功能类似于𝐿2正则化，与𝐿2正则化不同的是应用方式不同，dropout更适用于不同的输入范围。