动机1:数据压缩

从2维到1维,从3到2,可以减少数据的存储

动机2:数据可视化

高维数据可视化困难,如果降低到2,3维度,则可以可视化。

PCA1

image.png
投影数据到某个方向上以最小化投影误差
线性回归与pca的不同:
image.png
线性回归第一幅图,第二幅图是PCA投影

PCA算法

  1. 数据预处理

image.png

  1. 算法

image.png

image.png数据重现

image.png

选择主成分数量

image.png

应用PCA的建议

  1. PCA的映射应该被定义在训练集上
  2. 尽量不要用它来防止过拟合
  3. 不要上来直接PCA,如果原数据上存在效果不好,再执行PCA