背景——维度灾难
从几何角度理解维度灾难,对于n维球体积:,则球体与其外接超立方体的体积比值维为:
,想象一下,在高纬度空间中,球体体积的占比在逐渐减少,而大多数数据都分布在了球体以外的外接超立方体的边缘区域,这样会造成数据稀疏分布,因此需要对数据进行降维。
降维方法有以下几种:
- 直接降维:特征选择;
- 线性降维:主成分分析(Principal Component Analysis, PCA)等;
- 非线性降维:流形等;
记号:
样本均值:;
样本方差:其中,
因此,,其中
,这里我们记
,那么数据
的方差为
不难发现,均值项消失了,也就是说相当于将数据点从围绕着原均值分布平移到围绕着原点分布,这一操作叫做去中心化,H也称中心矩阵。
[补充]H的一些性质 性质1(对称性):
; 性质2(幂等性):
,因此
;
主成分分析
主要思想
主成分分析的主要思想可以概括为:“一个中心,两个基本点”:
- 一个中心:将一组线性相关的向量通过线性映射重构成一组线性无关向量;
- 两个基本点:
- 最大投影方差;
- 最小重构距离(代价);
具体操作
①首先将数据去中心化;
②最大化投影方差:
假设u为一组理想方向上的单位向量,投影方差则可以定义为:,其中
。
因此,,,利用拉格朗日乘子法,拉格朗日方程为:
,
,可以看到u就是方差矩阵的特征单位向量,那么在方差投影最大化以后,数据点新的表示为:
,q为降维后的维度。
③最小重构代价:
定义其为数据被省略掉的维度在主成分方向上距离平方和:,因为
所以
。
根据在②中的讨论可知,令代价最小,应在降维时选取前q个最小的本征值。
这样,数据加工接完成了:
从SVD分解角度
对中心化数据矩阵进行SVD分解:,U与V是正交矩阵,∑是对角矩阵,那么协方差矩阵
。
定义,可见T与S有相同的特征值,因此有如下结论:
特征分解,得到主成分方向,并通过
可以得到坐标1;
特征分解,直接得到坐标2,因此这种分析方法被称为主坐标分析(principal coordinate analysis, PCoA);
[解释]
- 去中心化的数据:
,V为主成分方向
,即得到了N个数据点的新坐标;
,而
因此T的特征向量矩阵就是数据点新坐标矩阵。 [注] S是p维的,T是N维的,当处理对象维度很高时,利用T的特征分解会很方便。
- 去中心化的数据:
从概率的角度
对原数据降维后得到
,做如下假设:
- z有一个先验:
;
- x与z服从高斯线性模型:
,
;
(此时z看作常量)
这样就得到了x的概率密度分布:,并推得后验的分布为:
