7、图像数据不足时的处理方法
问题一:在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
模型所能提供的信息来源于两方面:
- 训练数据中蕴含的信息
- 在模型的形成过程中(包括构造、学习、推理等),人们提供的先验信息
当数据不足时,说明模型从原始数据中获取的信息比较少,因此就需要更多的先验信息来保证模型的效果。
- 先验信息可以作用在模型上:eg. 让模型采用特定的内在结构、条件假设 or 添加其他一些约束条件
- 先验信息也可以作用在数据上:eg. 根据特定的先验假设去调整、变换 or 扩展训练数据,让其展现出更多的、更有用的信息
对于图像分类任务,数据不足导致的主要问题:过拟合,即模型在训练集上效果可能不错,但在测试集上的泛化效果不佳
缓解数据不足问题的两种处理方法:
- 基于模型的方法:降低过拟合风险
- 简化模型、添加约束项以缩小假设空间(L1/L2 正则化项)、集成学习、Dropout 超参数等
- 基于数据的方法:
- 数据扩充(Data Augmentation):根据一些先验知识,对原始数据进行适当变换以达到扩充数据集的效果:
- 一定程度内的随即旋转、平移、缩放、裁剪、填充、左右翻转等,这些变换对应着同一个目标在不同角度的观察结果
- 对图像中的像素添加噪声扰动,eg. 椒盐噪声、高斯白噪声等
- 颜色变换
- 改变图像的亮度、清晰度、对比度、锐度等
- 使用生成模型(eg. GAN)合成一些新样本
- 数据扩充(Data Augmentation):根据一些先验知识,对原始数据进行适当变换以达到扩充数据集的效果:
- 迁移学习:借助已有的其他模型 or 数据来进行迁移学习
- eg. 对于大部分图像分类任务,并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调
