定义

全连接神经网络（多层感知器）级联多个变换来实现输入到输出的映射。

激活函数

用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。如果网络中缺少了激活函数，全连接神经网络将变成一个线性分类器

将数据压缩到0-1之间

将数据压缩到-1~+1之间

尽量选择ReLU函数或者Leakly ReLU函数，相对于Sigmoid/tanh， ReLU函数或者Leakly ReLU函数会让梯度流更加顺畅，训练过程收敛得更快。

得到一个概率分布的输出层

梯度消失是神经网络训练中非常致命的一个问题，其本质是由于链式法则的乘法特性导致的。

利用历史累加梯度信息更新梯度
由于动量的存在，算法可以冲出局部最小点以及鞍点，找到更优的解。

自适应梯度法通过减小震荡方向步长，增大平坦方向步长来减小震荡,加速通往谷底方向;

同时使用动量和自适应的思想

指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测得很差的现象。这种情况下模型可能只是记住了训练集数据，而不是学习到了数据特征。

模型描述能力太弱，以至于不能很好地学习到数据中的规律。产生欠拟合的原因通常是模型过于简单。

让隐层的神经元以一定的概率不被激活
实现方式：训练过程中，对某一层使用Dropout，就是随机将该层的一些输出舍弃(输出值设置为0)，这些被舍弃的神经元就好像被网络删除了一样。

随机失活比率( Dropout ratio):是被设为 0 的特征所占的比例，通常在 0.2 - 0.5 范围内。

随机失活为什么能够防止过拟合呢?
解释1：随机失活使得每次更新梯度时参与计算的网络参数减少了，降低了模型容量，所以能防止过拟合。
解释2: 随机失活鼓励权重分散，从这个角度来看随机失活也能起到正则化的作用，进而防止过拟合。

网络结构：隐层神经元个数，网络层数，非线性单元选择等
优化相关：学习率、dropout比率、正则项强度等

1 每个超参数分别取几个值，组合这些超参数值，形成多组超参数; 2 在验证集上评估每组超参数的模型性能;
3 选择性能最优的模型所采用的那组值作为最终的超参数的值。

1 参数空间内随机取点，每个点对应一组超参数;
2 在验证集上评估每组超参数的模型性能;
3 选择性能最优的模型所采用的那组值作为最终的超参数的值。

                                                        <br />