第 1 章特征工程

浏览 145 扫码分享 2023-11-22 00:24:33

7、图像数据不足时的处理方法
- 问题一：在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？

7、图像数据不足时的处理方法

问题一：在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？

模型所能提供的信息来源于两方面：

训练数据中蕴含的信息
在模型的形成过程中（包括构造、学习、推理等），人们提供的先验信息

当数据不足时，说明模型从原始数据中获取的信息比较少，因此就需要更多的先验信息来保证模型的效果。

先验信息可以作用在模型上：eg. 让模型采用特定的内在结构、条件假设 or 添加其他一些约束条件
先验信息也可以作用在数据上：eg. 根据特定的先验假设去调整、变换 or 扩展训练数据，让其展现出更多的、更有用的信息

对于图像分类任务，数据不足导致的主要问题：过拟合，即模型在训练集上效果可能不错，但在测试集上的泛化效果不佳

缓解数据不足问题的两种处理方法：

基于模型的方法：降低过拟合风险
- 简化模型、添加约束项以缩小假设空间（L1/L2 正则化项）、集成学习、Dropout 超参数等
基于数据的方法：
- 数据扩充（Data Augmentation）：根据一些先验知识，对原始数据进行适当变换以达到扩充数据集的效果：
  - 一定程度内的随即旋转、平移、缩放、裁剪、填充、左右翻转等，这些变换对应着同一个目标在不同角度的观察结果
  - 对图像中的像素添加噪声扰动，eg. 椒盐噪声、高斯白噪声等
  - 颜色变换
  - 改变图像的亮度、清晰度、对比度、锐度等
- 使用生成模型（eg. GAN）合成一些新样本
迁移学习：借助已有的其他模型 or 数据来进行迁移学习
- eg. 对于大部分图像分类任务，并不需要从头开始训练模型，而是借用一个在大规模数据集上预训练好的通用模型，并在针对目标任务的小数据集上进行微调

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录