SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS和论文“通过扩张卷积的多尺度上下文聚合”中介绍了扩张卷积。
这是标准的卷积:
$$
(F * k)(\boldsymbol{p})=\sum_{s+t=p} F(\boldsymbol{s}) k(\boldsymbol{t})
$$
膨胀卷积如下:
$$
\left(F *{l} k\right)(\boldsymbol{p})=\sum{s+l t=p} F(\boldsymbol{s}) k(\boldsymbol{t})
$$
当l = 1时,膨胀卷积成为标准卷积。
直观地,膨胀卷积通过在内核元素之间插入空格来“膨胀”内核。这个额外的参数l(膨胀率)表示我们要扩展内核多少。实现可能会有所不同,但是内核元素之间通常会插入l-1个空格。下图显示了l = 1、2、4时的内核大小。
在图像中,3 x 3红点表示卷积后,输出图像具有3 x 3像素。尽管所有三个膨胀的卷积都为输出提供相同的维度,但是模型观察到的感受野却截然不同。当l = 1时,感受野为3 x 3。l = 2时为7 x 7。当l = 3时,感受野增加到15 x15。有趣的是,与这些操作关联的参数数量基本相同。我们“观察”了一个大的感受野,而没有增加额外的费用。因此,膨胀卷积用于廉价地增加输出单元的感受野而不增加内核大小,这在多个膨胀卷积一个接一个地堆叠时特别有效。
作者在“通过扩张卷积的多尺度上下文聚合”一书中,从多层扩张卷积的多层结构中构建了一个网络,其中,扩张率l在每一层都呈指数增长。结果,有效感受野呈指数增长,而参数的数量仅随层线性增长!