图像增广

  • 大规模数据集是成功应用深度神经网络的前提。
  • 图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。
  • 图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。
  • 例如,我们可以对图像进行不同方式的裁剪,使感兴趣的物体出现在不同位置,从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来降低模型对色彩的敏感度。
  • 可以说,在当年AlexNet的成功中,图像增广技术功不可没。

    常用的图像增广方法

    翻转和裁剪

  • 左右翻转图像通常不改变物体的类别。它是最早也是最广泛使用的一种图像增广方法。

  • 上下翻转不如左右翻转通用。但是至少对于样例图像,上下翻转不会造成识别障碍。
  • 池化层能降低卷积层对目标位置的敏感度。除此之外,我们还可以通过对图像随机裁剪来让物体以不同的比例出现在图像的不同位置,这同样能够降低模型对目标位置的敏感性。

    变化颜色

    另一类增广方法是变化颜色。我们可以从4个方面改变图像的颜色:亮度(brightness)、对比度(contrast)、饱和度(saturation)和色调(hue)。

    使用图像增广训练模型

    为了在预测时得到确定的结果,我们通常只将图像增广应用在训练样本上,而不在预测时使用含随机操作的图像增广。