论文地址:
https://arxiv.org/abs/1505.00387
https://arxiv.org/abs/1507.06228
简述
大量的理论和经验证明,神经网络的深度是成功的关键因素。然而,随着深度的增加,网络训练变得越来越困难。本文的作者提出了一种网络结构(Highway Networks),它允许信息在几个网络层进行流动,该网络利用门控函数进行自适应变换或添加旁路信号,使网络能够进一步深,超过1000层的深度网络也可以被优化。
主要理念
- 普通网络
普通网络的各层表达式如:
其中 x 是输入, 是权重,H是变换函数,y 是输出。
- Highway Networks
Highway Networks 结构如下所示,该结构引入了两个门控函数 T(transform gate) 和 C(carry gate),这两个函数都是非线性函数。
数学表达式如下:
是网络的权重,在论文中,作者又设置了 C=1-T,故上式可以转化为:
对于不同的的 T,y 的取值如下:
当 T=0 时,输入即输出,创建了一条信息流通的高速公路,这就是 Highway Networks 的概念的来源。
当 T=1 时,使用非线性激活函数对输入进行变换。
T(x) 是 sigmoid 变换函数, 和
是门函数 T 的权重和偏置
效果分析
随着网络深度的加深,普通网络的优化变得困难,而 100 层的 Highway Networks 仍然可以进行优化。
- MNIST 数据集测试结果
作者设计了 10 层的 Highway Networks(9层卷积层和一层 softmax 层),对比 Maxout 网络和 DSN 网络,取得相似的性能但是更少的参数量。
- CIFAR-10 & CIFAR-100
当网络很深的时候,Fitnet 无法进行优化,它需要进行分步骤的训练
19 层的 Highway Networks 具有较高的精度
CIFAR-10 测试精度
上述的 Fitnet 网络来自于论文: 《FitNets: Hints for Thin Deep Nets》https://arxiv.org/abs/1412.6550
CIFAR-10,CIFAR-100 测试精度
将网络的最后的全连接层变成全局池化层,Highway Networks 在 CIFAR-10 数据集上取得同上述网络相当的性能,在 CIFAR-100 数据集上的测试精度超过了其他网络
作者还尝试将 Highway Networks 网络的部分层手动不使用门控函数 T(transform gate),即使得输入输出一致,对比 CIFAR-10,CIFAR-100 数据集,发现在 CIFAR-10 数据集上前面几层的改变对精度的损失影响较大,15 之后的层对精度的损失影响不大,可能因为大部分的层没有学到对网络有贡献的权重。
对Highway Networks 网络的复现代码