dropout 正则化

  1. 假设在训练图一这样的一个神经网络,且它存在过拟合,这就是 **dropout **所要处理的,我们复制这个神经网络,**dropout **会遍历网络的每一层,并设置消除神经网络中节点的概率。假设网络中的每一层,每个节点得以保留和消除的概率都是 0.5,设置完节点概率,我们会消除一些节点,然后删除掉从该节点进出的连线,最后得到一个节点更少,规模更小的网络,如图二然后用 **backprop **方法进行训练。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/22608420/1644482828868-3b7ec5a6-6af9-4039-a88c-5d673c38f8c6.png#clientId=udfd77549-9a1a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=140&id=u7c097183&margin=%5Bobject%20Object%5D&name=image.png&originHeight=280&originWidth=548&originalType=binary&ratio=1&rotation=0&showTitle=false&size=104487&status=done&style=none&taskId=ub752e7a5-bb90-4402-9b6e-69779ae9eed&title=&width=274)![image.png](https://cdn.nlark.com/yuque/0/2022/png/22608420/1644482760891-260f5598-97c2-491f-9371-b8ab66ea9e8b.png#clientId=udfd77549-9a1a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=180&id=uc3f83941&margin=%5Bobject%20Object%5D&name=image.png&originHeight=478&originWidth=616&originalType=binary&ratio=1&rotation=0&showTitle=false&size=190788&status=done&style=none&taskId=u2fb8e528-63f1-4a0b-8756-2f9b55a44c4&title=&width=232)![image.png](https://cdn.nlark.com/yuque/0/2022/png/22608420/1644482796420-ea65df89-ccd1-4ea3-836f-9447d9db1cbf.png#clientId=udfd77549-9a1a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=148&id=u577bc40e&margin=%5Bobject%20Object%5D&name=image.png&originHeight=394&originWidth=618&originalType=binary&ratio=1&rotation=0&showTitle=false&size=145556&status=done&style=none&taskId=uf26c04e5-cf7b-4fc2-9f64-3f3a1b9f328&title=&width=232)<br />图一 图二 图三<br /> 其内涵就是我们针对每个训练样本训练规模极小的网络(图三),每个节点都根据不完全一样的训练样本得到训练,有点提升每个节点学习的泛化能力那味。

如何实施 dropout

tips:
1.如果发现某些层比其它层更容易发生过拟合,可以把某些层的 keep-prob 值设置得比其它层更低,缺点是为了使用交叉验证,要搜索更多的超级参数
2.是在一些层上应用 dropout,而有些层不用 dropout,应用 dropout 的层只含有一个超级参 数,就是 keep-prob
3.dropout 在数据量少的情况下应用较多一点

问题

Q:drop和L2正则的区别
dropout 的功能类似于𝐿2正则化,与𝐿2正则化不同的是应用方式不同,dropout更适用于不同的输入范围。