背景——维度灾难

从几何角度理解维度灾难，对于n维球体积：降维 - 图1 ，则球体与其外接超立方体的体积比值维为：降维 - 图2 ，想象一下，在高纬度空间中，球体体积的占比在逐渐减少，而大多数数据都分布在了球体以外的外接超立方体的边缘区域，这样会造成数据稀疏分布，因此需要对数据进行降维。
降维方法有以下几种：

直接降维：特征选择；
线性降维：主成分分析（Principal Component Analysis, PCA）等；
非线性降维：流形等；

记号：降维 - 图3
样本均值：降维 - 图4 ；
样本方差：降维 - 图5
降维 - 图6 其中，
降维 - 图7
因此，降维 - 图8
降维 - 图9
降维 - 图10 ，其中降维 - 图11 ，这里我们记降维 - 图12 ，那么数据降维 - 图13 的方差为
降维 - 图14
不难发现，均值项消失了，也就是说相当于将数据点从围绕着原均值分布平移到围绕着原点分布，这一操作叫做去中心化，H也称中心矩阵。

[补充]H的一些性质性质1（对称性）：；性质2（幂等性）：，因此；

主成分分析

主要思想

主成分分析的主要思想可以概括为：“一个中心，两个基本点”：

一个中心：将一组线性相关的向量通过线性映射重构成一组线性无关向量；
两个基本点：
1. 最大投影方差；
2. 最小重构距离（代价）；

微信图片_20220423180646.jpg

具体操作

①首先将数据去中心化；
②最大化投影方差：
假设u为一组理想方向上的单位向量，投影方差则可以定义为：降维 - 图19 ，其中降维 - 图20 。
降维 - 图21
降维 - 图22
因此，降维 - 图23 ，，利用拉格朗日乘子法，拉格朗日方程为：降维 - 图24 ，
降维 - 图25 ，可以看到u就是方差矩阵的特征单位向量，那么在方差投影最大化以后，数据点新的表示为：降维 - 图26 ，q为降维后的维度。
③最小重构代价：
定义其为数据被省略掉的维度在主成分方向上距离平方和：
降维 - 图27 ，因为降维 - 图28 所以降维 - 图29
降维 - 图30 。
根据在②中的讨论可知，令代价最小，应在降维时选取前q个最小的本征值。
这样，数据加工接完成了：降维 - 图31

从SVD分解角度

对中心化数据矩阵进行SVD分解：降维 - 图32 ，U与V是正交矩阵，∑是对角矩阵，那么协方差矩阵降维 - 图33
降维 - 图34 。
定义降维 - 图35 ，可见T与S有相同的特征值，因此有如下结论：

特征分解，得到主成分方向，并通过可以得到坐标1；
特征分解，直接得到坐标2，因此这种分析方法被称为主坐标分析（principal coordinate analysis, PCoA）;
[解释]
1. 去中心化的数据：，V为主成分方向，即得到了N个数据点的新坐标；
2. ，而
因此T的特征向量矩阵就是数据点新坐标矩阵。 [注] S是p维的，T是N维的，当处理对象维度很高时，利用T的特征分解会很方便。