PCA原理数据预处理计算过程 降维主流算法主成分分析方法(PCA) PCA原理 PCA算法实现了寻找一条直线,让特征点在线上的投影距离之和最小 投影距离又被称位投影误差特征点需要通过特征规范化和均值归一化 PCA和线性回归之间的关系 线性回归代价函数求的的最小垂直距离之和,且针对输出和输入之间的关系PCA求的是正交距离之和,两个输入可以是任意的,被同等对待因此两者是截然不同的算法 数据预处理执行均值标准化 缩放特征 PCA做了什么 实现了将两个特征用一个特征 来表示通过PCA需要得到以及线上的值 计算过程 使用特征值得到协方差矩阵(Sigma) 需要得到矩阵(Sigma)的特征向量可以使用svd函数或eig函数(svd数值更稳定)因为协方差矩阵总是满足正定矩阵,因此使用svd或eig分解均可对协方差矩阵进行svd(奇异值分解)计算结果u也会是n*n矩阵,我们只关心前 k 列(得到降维版本的U矩阵) 得到的降维后的 z 值 实现最小化投射平方误差