Tricks - 《深度学习》

MaxOut单元

MaxOut单元

可以视为对ReLu的一种改进。
(1)以前MLP的方法。我们要计算第i+1层，那个神经元的激活值的时候，传统的MLP计算公式就是：
Tricks - 图1
Tricks - 图2
f是我们熟悉的激活函数，sigmoid,Relu,Tanh等。
(2)Maxout 的方法。如果我们设置maxout的参数k=5，maxout层就如上图中所示，相当于在每个输出神经元前面又多了一层“隐隐含层”。这一层有5个神经元，此时maxout网络的输出计算公式为：
Tricks - 图3
Tricks - 图4
所以这就是为什么采用maxout的时候，参数个数成k倍增加的原因。本来我们只需要一组参数就够了，采用maxout后，就需要有k组参数。
maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合（学过高等数学应该能明白），而maxout又是取k个隐隐含层节点的最大值，这些”隐隐含层”节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（分段的个数与k值有关）。论文中的图1如下（它表达的意思就是可以拟合任意凸函数，当然也包括了ReLU了）：
Tricks - 图5
作者从数学的角度上也证明了这个结论，即只需2个maxout节点就可以拟合任意的凸函数了（相减），前提是”隐隐含层”节点的个数可以任意多，如下图所示：
Tricks - 图6