加速监督学习
- 图像处理,一张图片像素点太多,处理速度慢
- PCA的计算只能在训练集上实现,而不能从验证集和测试集得出
- 但是在训练集上计算出的映射关系(参数),可以用在验证集和测试集
错误使用:防止过拟合
- 尽可能通过使用正则化项实现过拟合,而不是PCA
- 原因
- 回顾PCA工作原理
- PCA不需要使用标签 y,仅使用输入的
- 使它尽可能使用低维数据来近似样本数据,可能会丢掉一些有用的信息
- 而正则化计算过程中是会考虑标签 y,不容易丢失有用信息
- PCA更适合用来加速算法,而不是防止过拟合
正确的设计流程
- 不首先使用PCA,尽可能考虑仅使用原始数据就可以实现算法
- 仅在必要场合(运行速度过慢,硬盘空间不足)下,才考虑使用PCA优化