论文地址:
https://arxiv.org/abs/1505.00387
https://arxiv.org/abs/1507.06228

简述

大量的理论和经验证明,神经网络的深度是成功的关键因素。然而,随着深度的增加,网络训练变得越来越困难。本文的作者提出了一种网络结构(Highway Networks),它允许信息在几个网络层进行流动,该网络利用门控函数进行自适应变换或添加旁路信号,使网络能够进一步深,超过1000层的深度网络也可以被优化。

主要理念

  • 普通网络

普通网络的各层表达式如:
卷积神经网络之-Highway Networks - 图1

其中 x 是输入,卷积神经网络之-Highway Networks - 图2 是权重,H是变换函数,y 是输出。

  • Highway Networks

Highway Networks 结构如下所示,该结构引入了两个门控函数 T(transform gate) 和 C(carry gate),这两个函数都是非线性函数。

1_qHf_AHv8yJJsKQok4KS4Jw.png
数学表达式如下:
卷积神经网络之-Highway Networks - 图4

卷积神经网络之-Highway Networks - 图5是网络的权重,在论文中,作者又设置了 C=1-T,故上式可以转化为:

卷积神经网络之-Highway Networks - 图6

对于不同的的 T,y 的取值如下:

卷积神经网络之-Highway Networks - 图7

当 T=0 时,输入即输出,创建了一条信息流通的高速公路,这就是 Highway Networks 的概念的来源。
当 T=1 时,使用非线性激活函数对输入进行变换。

T(x) 是 sigmoid 变换函数,卷积神经网络之-Highway Networks - 图8卷积神经网络之-Highway Networks - 图9是门函数 T 的权重和偏置
卷积神经网络之-Highway Networks - 图10

1_sOtpVYq2Msjxz51XMn1QSA.png

效果分析

随着网络深度的加深,普通网络的优化变得困难,而 100 层的 Highway Networks 仍然可以进行优化。

image.png
image.png

  • MNIST 数据集测试结果

作者设计了 10 层的 Highway Networks(9层卷积层和一层 softmax 层),对比 Maxout 网络和 DSN 网络,取得相似的性能但是更少的参数量。
image.png

  • CIFAR-10 & CIFAR-100

当网络很深的时候,Fitnet 无法进行优化,它需要进行分步骤的训练
19 层的 Highway Networks 具有较高的精度

image.png
CIFAR-10 测试精度

上述的 Fitnet 网络来自于论文: 《FitNets: Hints for Thin Deep Nets》https://arxiv.org/abs/1412.6550

image.png
CIFAR-10,CIFAR-100 测试精度

将网络的最后的全连接层变成全局池化层,Highway Networks 在 CIFAR-10 数据集上取得同上述网络相当的性能,在 CIFAR-100 数据集上的测试精度超过了其他网络

image.png
作者还尝试将 Highway Networks 网络的部分层手动不使用门控函数 T(transform gate),即使得输入输出一致,对比 CIFAR-10,CIFAR-100 数据集,发现在 CIFAR-10 数据集上前面几层的改变对精度的损失影响较大,15 之后的层对精度的损失影响不大,可能因为大部分的层没有学到对网络有贡献的权重。

对Highway Networks 网络的复现代码