经典网络 - 卷积神经网络之-Highway Networks - 《AICV实验室》

简述
主要理念
效果分析

论文地址：
https://arxiv.org/abs/1505.00387
https://arxiv.org/abs/1507.06228

简述

大量的理论和经验证明，神经网络的深度是成功的关键因素。然而，随着深度的增加，网络训练变得越来越困难。本文的作者提出了一种网络结构（Highway Networks），它允许信息在几个网络层进行流动，该网络利用门控函数进行自适应变换或添加旁路信号，使网络能够进一步深，超过1000层的深度网络也可以被优化。

主要理念

普通网络

普通网络的各层表达式如：
卷积神经网络之-Highway Networks - 图1

其中 x 是输入，卷积神经网络之-Highway Networks - 图2 是权重，H是变换函数，y 是输出。

Highway Networks

Highway Networks 结构如下所示，该结构引入了两个门控函数 T（transform gate）和 C（carry gate），这两个函数都是非线性函数。

数学表达式如下：
卷积神经网络之-Highway Networks - 图4

卷积神经网络之-Highway Networks - 图5 是网络的权重，在论文中，作者又设置了 C=1-T，故上式可以转化为：

卷积神经网络之-Highway Networks - 图6

对于不同的的 T，y 的取值如下：

卷积神经网络之-Highway Networks - 图7

当 T=0 时，输入即输出，创建了一条信息流通的高速公路，这就是 Highway Networks 的概念的来源。
当 T=1 时，使用非线性激活函数对输入进行变换。

T(x) 是 sigmoid 变换函数，卷积神经网络之-Highway Networks - 图8 和卷积神经网络之-Highway Networks - 图9 是门函数 T 的权重和偏置
卷积神经网络之-Highway Networks - 图10

效果分析

随着网络深度的加深，普通网络的优化变得困难，而 100 层的 Highway Networks 仍然可以进行优化。

MNIST 数据集测试结果

作者设计了 10 层的 Highway Networks（9层卷积层和一层 softmax 层），对比 Maxout 网络和 DSN 网络，取得相似的性能但是更少的参数量。

CIFAR-10 & CIFAR-100

当网络很深的时候，Fitnet 无法进行优化，它需要进行分步骤的训练
19 层的 Highway Networks 具有较高的精度

CIFAR-10 测试精度

上述的 Fitnet 网络来自于论文: 《FitNets: Hints for Thin Deep Nets》https://arxiv.org/abs/1412.6550

CIFAR-10，CIFAR-100 测试精度

将网络的最后的全连接层变成全局池化层，Highway Networks 在 CIFAR-10 数据集上取得同上述网络相当的性能，在 CIFAR-100 数据集上的测试精度超过了其他网络

作者还尝试将 Highway Networks 网络的部分层手动不使用门控函数 T（transform gate），即使得输入输出一致，对比 CIFAR-10，CIFAR-100 数据集，发现在 CIFAR-10 数据集上前面几层的改变对精度的损失影响较大，15 之后的层对精度的损失影响不大，可能因为大部分的层没有学到对网络有贡献的权重。

对Highway Networks 网络的复现代码

https://github.com/bamtercelboo/pytorch_Highway_Networks