过拟合
要说清楚drop out,先从过拟合讲起。
图解:
分别是:欠拟合、好拟合、过拟合
表现在loss上,如图:
在训练集上loss稳步下降,测试集上先降后升,基本就是过拟合。
从上面可以看出,过拟合原因基本上可以概括为:
1、数据有噪音;
2、训练数据过少;
3、模型过于复杂。
Drop out出现原因
考虑到数据有噪声几乎是一定的,Drop out出现时为了解决过拟合问题的,针对过拟合的三大原因中,模型过于复杂这一条:
1、每次有一定概率忽略模型的一些分支,防止整体的模型对某个特征过于敏感和依赖
2、每次忽略的分支都不太一样,防止分支之间相互依赖,迫使网络去学习更加鲁棒的特征
做法
以概率p屏蔽掉某些神经元,使其激活值为0以后,对其他激活值向量进行放大,也就是乘以1/(1-p)。
理解角度
权重平均和模型平均
从做法上看,drop out是给模型引入了随机噪声,且这个噪声服从伯努利分布,也即模型参数上乘以一个向量,向量取值范围{0,1},取1的概率为p,
。
