• 降维主流算法
  • 主成分分析方法(PCA)

    PCA原理

    image.png

  • PCA算法实现了寻找一条直线,让特征点在线上的投影距离之和最小

  • 投影距离又被称位投影误差
  • 特征点需要通过特征规范化和均值归一化

image.png

  • PCA和线性回归之间的关系

image.png

  • 线性回归代价函数求的的最小垂直距离之和,且针对输出和输入之间的关系
  • PCA求的是正交距离之和,两个输入可以是任意的,被同等对待
  • 因此两者是截然不同的算法

    数据预处理

  • 执行均值标准化

  • 缩放特征

image.png

  • PCA做了什么

image.png

  • 实现了将两个特征【机器学习】主成分分析 - 图6用一个特征 【机器学习】主成分分析 - 图7 来表示
  • 通过PCA需要得到【机器学习】主成分分析 - 图8以及线上的【机器学习】主成分分析 - 图9

    计算过程

    image.png

  • 使用特征值得到协方差矩阵【机器学习】主成分分析 - 图11(Sigma)

  • 需要得到矩阵【机器学习】主成分分析 - 图12(Sigma)的特征向量
  • 可以使用svd函数或eig函数(svd数值更稳定)
  • 因为协方差矩阵总是满足正定矩阵,因此使用svd或eig分解均可
  • 对协方差矩阵进行svd(奇异值分解)
  • 计算结果u也会是n*n矩阵,我们只关心前 k 列(得到【机器学习】主成分分析 - 图13降维版本的U矩阵)

image.png

  • 得到的降维后的 z 值

image.png

  • 实现最小化投射平方误差