降维
高维空间会出现样本稀疏,距离计算困难等问题,是所有机器学习方面共同面临的严重障碍,被称为“维数灾难”,缓解“维数灾难”的重要途径是降维,即通过某种数学变换将高维空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得容易。
原始降维方法MDS(多维缩放)
原始降维方法是想在降维以后,保持样本在原始空间内的距离不变,即降维前后它们共享一个距离矩阵,它主要步骤是:
- 计算原始样本的距离矩阵
- 假设矩阵
是降维后的内积矩阵,
为降维后的矩阵。根据共享距离矩阵和降维后内积矩阵的关系,求得内积矩阵的每个元素,即求得
对
进行特征值分解,即
,求得
,
为非0特征值矩阵,
为对应的特征向量,有时候我们不比严格要求其矩阵完全相等,即可以取
个最大的特征值对应的特征向量进行乘积得到一个
维的降维矩阵。
。
PCA降维
一般来说,想要简单获得一个低维子空间,最简单的方式是对高维空间进行线性变换,即
,而降维后的
是
维的。而变换矩阵
可以被看作是
个
维基向量,而
为
在新的坐标系
中的坐标向量。若
正交,则
为正交变换,显然新空间下的属性是原空间属性线性变换的结果。
主成分分析PCA的思想是:对于正交属性空间中的样本点,我们该如何用一个超平面对所有样本进行恰的表达,这个超平面应满足:最近重构性:样本点到这个超平面的距离都足够近
- 最大可分性:样本点在这个超平面上的投影尽可能分开
根据最近重构性和最大可分性可以得到等价的PCA降维推导结果。
以最大可分性为例:样本点在新空间中超平面上的投影是
,若所有样本点都要尽可能分开,那么应该使得投影后样本点的方差最大化,即
,限制条件是正交坐标系,即
。使用拉格朗日乘子法可得
,因此只需要对协方差矩阵
进行特征值分解,取其最大
个特征值对应的特征向量构成
作为PCA的解。