7、图像数据不足时的处理方法

问题一:在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?

模型所能提供的信息来源于两方面:

  • 训练数据中蕴含的信息
  • 在模型的形成过程中(包括构造、学习、推理等),人们提供的先验信息

当数据不足时,说明模型从原始数据中获取的信息比较少,因此就需要更多的先验信息来保证模型的效果。

  • 先验信息可以作用在模型上:eg. 让模型采用特定的内在结构、条件假设 or 添加其他一些约束条件
  • 先验信息也可以作用在数据上:eg. 根据特定的先验假设去调整、变换 or 扩展训练数据,让其展现出更多的、更有用的信息

对于图像分类任务,数据不足导致的主要问题:过拟合,即模型在训练集上效果可能不错,但在测试集上的泛化效果不佳

缓解数据不足问题的两种处理方法

  • 基于模型的方法:降低过拟合风险
    • 简化模型添加约束项以缩小假设空间(L1/L2 正则化项)、集成学习Dropout 超参数
  • 基于数据的方法
    • 数据扩充(Data Augmentation):根据一些先验知识,对原始数据进行适当变换以达到扩充数据集的效果:
      • 一定程度内的随即旋转、平移、缩放、裁剪、填充、左右翻转等,这些变换对应着同一个目标在不同角度的观察结果
      • 对图像中的像素添加噪声扰动,eg. 椒盐噪声、高斯白噪声等
      • 颜色变换
      • 改变图像的亮度、清晰度、对比度、锐度等
    • 使用生成模型(eg. GAN)合成一些新样本
  • 迁移学习:借助已有的其他模型 or 数据来进行迁移学习
    • eg. 对于大部分图像分类任务,并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调