一 数据降维
对于维数太多的数据,需要进行降维。简单来说,在保持数据本质的前提下,将数据中的维度降低。
降维可以理解为一种映射关系。处理降维的技术有很多种,如SVD奇异值分解,主成分分析(PCA),因子分析(FA),独立成分分析(ICA)等等。
二 PCA
PCA是一种较为常用的降维技术,PCA的思想是将维特征映射到维上,这维是全新的正交特征。这维特征称为主元,是重新构造出来的维特征。在PCA中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的个坐标轴。
三 PCA 的操作过程
1. 流程
- 去平均值,即每一位特征减去各自的平均值
- 计算协方差矩阵
- 计算协方差矩阵的特征值与特征向量
- 对特征值从大到小排序
- 保留最大的个特征向量
- 将数据转换到个特征向量构建的新空间中
2. 示例解析
假设二维数据为
- 取平均值
我们计算每一维特征的平均值,并去除平均值,我们计算出均值为
去除均值后的矩阵为
- 计算的协方差矩阵
- 计算的特征值与特征向量
其中,特征值为
特征向量为
- 对特征值进行排序,显然就两个特征值
- 选择最大的那个特征值对应的特征向量2.
- 转换到新的空间