一 数据降维

对于维数太多的数据,需要进行降维。简单来说,在保持数据本质的前提下,将数据中的维度降低。
降维可以理解为一种映射关系。处理降维的技术有很多种,如SVD奇异值分解,主成分分析(PCA),因子分析(FA),独立成分分析(ICA)等等。

二 PCA

PCA是一种较为常用的降维技术,PCA的思想是将主成分分析 PCA - 图1维特征映射到主成分分析 PCA - 图2维上,这主成分分析 PCA - 图3维是全新的正交特征。这主成分分析 PCA - 图4维特征称为主元,是重新构造出来的主成分分析 PCA - 图5维特征。在PCA中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的主成分分析 PCA - 图6个坐标轴。

三 PCA 的操作过程

1. 流程

  • 去平均值,即每一位特征减去各自的平均值
  • 计算协方差矩阵
  • 计算协方差矩阵的特征值与特征向量
  • 对特征值从大到小排序
  • 保留最大的主成分分析 PCA - 图7个特征向量
  • 将数据转换到主成分分析 PCA - 图8个特征向量构建的新空间中

2. 示例解析

假设二维数据为主成分分析 PCA - 图9
主成分分析 PCA - 图10

  • 取平均值

我们计算每一维特征的平均值,并去除平均值,我们计算出均值主成分分析 PCA - 图11
主成分分析 PCA - 图12
去除均值后的矩阵为主成分分析 PCA - 图13
主成分分析 PCA - 图14

  • 计算主成分分析 PCA - 图15的协方差矩阵主成分分析 PCA - 图16

主成分分析 PCA - 图17

  • 计算主成分分析 PCA - 图18的特征值与特征向量

其中,特征值为

主成分分析 PCA - 图19
特征向量为
主成分分析 PCA - 图20

  • 对特征值进行排序,显然就两个特征值
  • 选择最大的那个特征值对应的特征向量主成分分析 PCA - 图212.

主成分分析 PCA - 图22

  • 转换到新的空间

主成分分析 PCA - 图23
主成分分析 PCA - 图24