PCA(Principal Component Analysis)是无监督的降维算法,它的核心思想是:希望找到一个超平面,把所有样本投影到该超平面;并且该超平面应该具有以下性质:

    1. 最近重构性
      1. 样本点到这个超平面的距离足够近。
    2. 最大可分性
      1. 样本点在这个超平面上的投影能尽可能分开。

    最近重构性和最大可分性都是为了降低信息损失,以免降维之后信息损失太多。

    PCA算法的执行步骤:

    1. 对数据进行去中心化
    2. 假定数据投影到了一个新的坐标系
    3. 计算每条数据在新的坐标系下的坐标
    4. 求解优化问题
      1. 优化最近重构性的目标函数
        1. 基于欧式距离构造优化函数。
      2. 优化最大可分性的目标函数
        1. 基于方差最大构造目标函数
      3. 实际上以上两种优化问题的目标函数一致
        1. 计算样本协方差矩阵主成分分析PCA - 图1
        2. 对协方差矩阵主成分分析PCA - 图2做特征值分解
        3. 取最大的主成分分析PCA - 图3个特征值所对应的特征向量主成分分析PCA - 图4
      4. 输出投影矩阵主成分分析PCA - 图5
    5. 投影矩阵主成分分析PCA - 图6与样本均值相乘就可以把数据投影到低维空间中。

    PCA中主成分分析PCA - 图7的选取方法:

    1. 从重构性的角度进行选取

    为重构性设置一个阈值,例如主成分分析PCA - 图8
    主成分分析PCA - 图9
    其中,主成分分析PCA - 图10为特征值;根据该公式确定主成分分析PCA - 图11的值。

    1. 主成分分析PCA - 图12值不同的低维空间中对k近邻分类器(或其它开销较小的学习器)进行交叉验证来选取较好的主成分分析PCA - 图13值。

    降维舍弃部分信息的作用:

    1. 使样本采样密度增大
    2. 具有去噪的效果,特征值小的特征向量往往与噪声有关。

    降维的效果:

    1. 特征发生变化,造成可解释性不强。
    2. 对数据进行去噪。