背景——维度灾难

从几何角度理解维度灾难,对于n维球体积:降维 - 图1,则球体与其外接超立方体的体积比值维为:降维 - 图2,想象一下,在高纬度空间中,球体体积的占比在逐渐减少,而大多数数据都分布在了球体以外的外接超立方体的边缘区域,这样会造成数据稀疏分布,因此需要对数据进行降维。
降维方法有以下几种:

  1. 直接降维:特征选择;
  2. 线性降维:主成分分析(Principal Component Analysis, PCA)等;
  3. 非线性降维:流形等;

记号:降维 - 图3
样本均值:降维 - 图4
样本方差:降维 - 图5
降维 - 图6其中,
降维 - 图7
因此,降维 - 图8
降维 - 图9
降维 - 图10,其中降维 - 图11,这里我们记降维 - 图12,那么数据降维 - 图13的方差为
降维 - 图14
不难发现,均值项消失了,也就是说相当于将数据点从围绕着原均值分布平移到围绕着原点分布,这一操作叫做去中心化,H也称中心矩阵。

[补充]H的一些性质 性质1(对称性):降维 - 图15; 性质2(幂等性):降维 - 图16,因此降维 - 图17

主成分分析

主要思想

主成分分析的主要思想可以概括为:“一个中心,两个基本点”:

  1. 一个中心:将一组线性相关的向量通过线性映射重构成一组线性无关向量;
  2. 两个基本点:
    1. 最大投影方差;
    2. 最小重构距离(代价);

微信图片_20220423180646.jpg

具体操作

①首先将数据去中心化;
②最大化投影方差:
假设u为一组理想方向上的单位向量,投影方差则可以定义为:降维 - 图19,其中降维 - 图20
降维 - 图21
降维 - 图22
因此,降维 - 图23,,利用拉格朗日乘子法,拉格朗日方程为:降维 - 图24
降维 - 图25,可以看到u就是方差矩阵的特征单位向量,那么在方差投影最大化以后,数据点新的表示为:降维 - 图26q为降维后的维度。
③最小重构代价:
定义其为数据被省略掉的维度在主成分方向上距离平方和:
降维 - 图27,因为降维 - 图28所以降维 - 图29
降维 - 图30
根据在②中的讨论可知,令代价最小,应在降维时选取前q个最小的本征值。
这样,数据加工接完成了:降维 - 图31

从SVD分解角度

对中心化数据矩阵进行SVD分解:降维 - 图32UV是正交矩阵,是对角矩阵,那么协方差矩阵降维 - 图33
降维 - 图34
定义降维 - 图35,可见TS有相同的特征值,因此有如下结论:

  1. 降维 - 图36特征分解,得到主成分方向,并通过降维 - 图37可以得到坐标1;
  2. 降维 - 图38特征分解,直接得到坐标2,因此这种分析方法被称为主坐标分析(principal coordinate analysis, PCoA);

    [解释]

    1. 去中心化的数据:降维 - 图39V为主成分方向降维 - 图40降维 - 图41,即得到了N个数据点的新坐标;
    2. 降维 - 图42,而

    降维 - 图43因此T的特征向量矩阵就是数据点新坐标矩阵。 [注] S是p维的,T是N维的,当处理对象维度很高时,利用T的特征分解会很方便。

从概率的角度

对原数据降维 - 图44降维后得到降维 - 图45,做如下假设:

  1. z有一个先验:降维 - 图46
  2. xz服从高斯线性模型:降维 - 图47降维 - 图48

降维 - 图49(此时z看作常量)
降维 - 图50
降维 - 图51
降维 - 图52
这样就得到了x的概率密度分布:降维 - 图53,并推得后验的分布为:
降维 - 图54