卷积操作汇总 - Dilated Convolution - 《卷积神经网络CNN》

SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS和论文“通过扩张卷积的多尺度上下文聚合”中介绍了扩张卷积。

这是标准的卷积：

$$
(F * k)(\boldsymbol{p})=\sum_{s+t=p} F(\boldsymbol{s}) k(\boldsymbol{t})
$$

Dilated Convolution - 图1

膨胀卷积如下：

$$
\left(F *{l} k\right)(\boldsymbol{p})=\sum{s+l t=p} F(\boldsymbol{s}) k(\boldsymbol{t})
$$

当l = 1时，膨胀卷积成为标准卷积。

Dilated Convolution - 图2

直观地，膨胀卷积通过在内核元素之间插入空格来“膨胀”内核。这个额外的参数l（膨胀率）表示我们要扩展内核多少。实现可能会有所不同，但是内核元素之间通常会插入l-1个空格。下图显示了l = 1、2、4时的内核大小。

Dilated Convolution - 图3

在图像中，3 x 3红点表示卷积后，输出图像具有3 x 3像素。尽管所有三个膨胀的卷积都为输出提供相同的维度，但是模型观察到的感受野却截然不同。当l = 1时，感受野为3 x 3。l = 2时为7 x 7。当l = 3时，感受野增加到15 x15。有趣的是，与这些操作关联的参数数量基本相同。我们“观察”了一个大的感受野，而没有增加额外的费用。因此，膨胀卷积用于廉价地增加输出单元的感受野而不增加内核大小，这在多个膨胀卷积一个接一个地堆叠时特别有效。

作者在“通过扩张卷积的多尺度上下文聚合”一书中，从多层扩张卷积的多层结构中构建了一个网络，其中，扩张率l在每一层都呈指数增长。结果，有效感受野呈指数增长，而参数的数量仅随层线性增长！