加速监督学习

  • 图像处理,一张图片像素点太多,处理速度慢

image.png

  • PCA的计算只能在训练集上实现,而不能从验证集和测试集得出
  • 但是在训练集上计算出的映射关系(参数),可以用在验证集和测试集

错误使用:防止过拟合

image.png

  • 尽可能通过使用正则化项实现过拟合,而不是PCA
  • 原因
    • 回顾PCA工作原理
    • PCA不需要使用标签 y,仅使用输入的 【机器学习】PCA使用 - 图3
    • 使它尽可能使用低维数据来近似样本数据,可能会丢掉一些有用的信息
    • 而正则化计算过程中是会考虑标签 y,不容易丢失有用信息
    • PCA更适合用来加速算法,而不是防止过拟合

正确的设计流程

image.png

  • 不首先使用PCA,尽可能考虑仅使用原始数据就可以实现算法
  • 仅在必要场合(运行速度过慢,硬盘空间不足)下,才考虑使用PCA优化