1背景

一般机器学习更关注泛化误差，因此会尽量避免过拟合，在解决过拟合时，一般有三种方式：

加数据，这是最简单的方式，一些策略会有这方面的效果。例如：数据增强
正则化，主要包括岭回归，lasso回归。
降维：直接降维即从原有特征中选择某些更有用特征；线性降维，如；非线性降维：主要是流形学习。

对于为什么要降维降维 - 图4 ，一个主要原因是维度灾难
维度灾难Curse of Dimension
随着数据维度（特征）的增加会出现三个问题：
1、特征数据的稀疏性
2、过于“重视”高维空间的噪声，导致过拟合降维 - 图7
3、特征数据分布在高维空间中的“角落”
稀疏性
在增加维数时，样本的密度会呈指数形式下降。假设1维中长度为5个单位，2维中会有25个单位，3维则会达到125个单位，样本数目是固定的，假设是降维 - 图8 ，则对于高维空间，样本密度则呈指数形式下降降维 - 图9 。
为了获得更好的效果。也许我们增加输入维度，我们会得到一个堪称完美的分类器？其实不然，因为当特征达到一定维度后，再去增加维度会导致分类器的性能下降，这便是经常提到的“curse of dimension”如下图所示：

降维 - 图10
过拟合
我们以对猫狗分类为例：假定有无穷多的猫和狗，任取10个猫或狗，我们的目标是使用10个训练样例，来对无穷多的测试样例进行分类。
输入一个特征，如三原色中的红色。由图所示，单一特征几乎无法对数据进行分类，为了优化我们的模型。
降维 - 图11

输入两个特征，这次添加绿色。根据图所示，添加了第二个特征，仍然没有一条直线，可以进行线性分类
降维 - 图12
输入三个特征，如下图：三维空间中，终于能够找到一个超平面，来把猫和狗完美分类
降维 - 图13
根据这个例子，我们似乎能够归纳出一个规律：输入特征越多，便能得到更精准的分类器。正如下图的曲线所示。
降维 - 图14

3维投影到2维后的图示
高维空间，相较于低维空间，存在一个问题就是噪声误差更多，
通过上图能够看出在3维空间中线性可分的数据，投影到2维空间后变为非线性可分。
事实上，通过添加增加特征把数据映射到高维空间来获得一个优良的分类器，仅仅相当于在低维空间中使用一个复杂的非线性分类器（kernel method）。
在高维空间中，我们的分类器拟合了稀疏的训练数据，数据可能带有误差，得到的分类器缺乏泛化性。这便是由于过于“重视”高维噪声，导致过拟合。
实际上，在二维空间上的一个不那么准确的分类器，可能更优于在三维空间上的分类器。
降维 - 图15
上图在训练数据上的分类效果不如在三维空间，但这种简单的分类器泛化性能更好。即使用较少的特征，维数灾难是可以避免的，不会过度拟合训练数据。
几何上

设正方形边长为1，圆半径为降维 - 图17 ，若维度为降维 - 图18 ，则“圆”的体积为降维 - 图19
即对于高维空间，特征数据分布在高维空间中的“角落”

2样本均值&样本方差矩阵

降维 - 图20 降维 - 图21
降维 - 图22
样本均值：

其中，降维 - 图24
样本方差矩阵：
降维 - 图25
降维 - 图26
其中，
降维 - 图27
令降维 - 图28 ，称为中心矩阵降维 - 图29
中心矩阵具有以下性质：

对称性，即
等幂性，即

因此，降维 - 图32

3PCA-最大投影方差

口诀：
对于PCA，一个口诀“一个中心，两个基本点”
目的：
一个中心：原始特征空间的重构（将一组可能线性相关的变量通过正交变换得到一组线性无关的变量）相关降维 - 图33 无关
手段：
两个基本点：最大投影方差，最小重构距离（两个角度，本质相通）
直观理解：
以二维为例

很明显，数据投影到降维 - 图35 方向，方差比投影到降维 - 图36 方向大，重构距离（到投影方向的平均距离）比投影到降维 - 图37 方向小。
假设降维 - 图38 就是我们要找的投影方向，则称降维 - 图39 为主成分，我们根据需要选取降维 - 图40 的前降维 - 图41 个元素。
Step1：中心化
降维 - 图42
Step2：投影方差
降维 - 图43
其中，约束条件为：降维 - 图44 ，因此求投影方向降维 - 图45 就转换成了一个带约束优化问题。
降维 - 图46
Step3：求优化问题
构造降维 - 图47 : 降维 - 图48
求偏导得：降维 - 图49
得到：降维 - 图50
降维 - 图51 为对称矩阵降维 - 图52 得特征值降维 - 图53 ，降维 - 图54 为其特征向量降维 - 图55

4PCA-最小重构距离

通过上面的推导我们发现，我们寻找的投影方向其实就是协方差矩阵降维 - 图56 的特征向量。
因此，降维 - 图57 可以看作两步：1、找到一组线性无关的投影向量降维 - 图58 ；2、根据需要挑选前降维 - 图59 个投影方向，构成新的特征空间。
假设某个已经进行过中心化的数据为降维 - 图60
在新的坐标系下的坐标可以表示为：
降维 - 图61
经过降维，取前降维 - 图62 个成分：
降维 - 图63

重构距离可以表示为：
降维 - 图64
由于前面我们假设降维 - 图65 是经过中心化的，因此重构距离可以表示为：
降维 - 图66
约束条件：降维 - 图67

5SVD视角看PCA和PCoA

两个基本点
从最大投影方差角度,推出
降维 - 图68
从最小重构距离推出
降维 - 图69
从两个角度来看，二者都是在寻找最大投影方向（主成分）降维 - 图70
结论：主成分就是方差矩阵降维 - 图71 的特征向量。
因此，在实际计算的时候只需要对方差矩阵做特征值分解就行了.
两个思路
思路1：直接对方差矩阵做特征值分解
由于降维 - 图72 为对阵矩阵，根据对阵矩阵的相似对角化定理，存在正交矩阵降维 - 图73 ，使得
降维 - 图74
其中，降维 - 图75
思路2：对中心化样本做奇异值分解
对样本数据做中心化处理：
降维 - 图76
矩阵降维 - 图77 为中心矩阵
对中心化之后的样本做奇异值分解：
降维 - 图78
其中，降维 - 图79 均为正交矩阵，降维 - 图80 为对角矩阵
带入样本方差，（去掉降维 - 图81 ）得到：
降维 - 图82
从中心化的样本奇异值分解得到了降维 - 图83 的特征值分解
主坐标分析(PCoA)
降维 - 图84 的主要思路是：1、得到方向（主成分）；2、将数据在该方向上进行投影（本质上是得到样本在新的方向上的坐标）
以二维为例：降维 - 图85

现在考虑从另一个角度出发，直接得到坐标
降维 - 图87
降维 - 图88 和降维 - 图89 具有相同的特征值降维 - 图90 。

：特征分解：得到方向，然后得到坐标
：特征分解：直接得到坐标

降维 - 图94 为由特征向量构成的正交矩阵，降维 - 图95 为新的坐标
降维 - 图96
降维 - 图97 为坐标矩阵
降维 - 图98
因此降维 - 图99 为降维 - 图100 特征向量组成的矩阵

6PCA-概率角度(probablistic PCA)

回顾一下降维 - 图101 ：
目的：
一个中心：原始特征空间的重构（将一组可能线性相关的变量通过正交变换得到一组线性无关的变量）相关降维 - 图102 无关
手段：
两个基本点：最大投影方差，最小重构距离（两个角度，本质相通）
目的本质上就是得到原始数据降维 - 图103 的低维表示降维 - 图104 , 降维 - 图105
两个基本点最总都是利用原始数据集的结构信息建模一个最优化问题。

降维还可以从两个维度进行区分，1、是否线性；2、是否是生成式方法

降维方法	线性	非线性
生成式	P-PCA	变分AE
非生成式	PCA	AE

从生成式方法的角度，认为数据集降维 - 图106 是对随机变量降维 - 图107 的降维 - 图108 次随机采样，随机变量降维 - 图109 依赖于随机变量降维 - 图110 ，对降维 - 图111 进行建模：
降维 - 图112
再对这个依赖关系进行建模：
降维 - 图113
得到降维 - 图114 的分布：
降维 - 图115
我们利用数据集降维 - 图116 对参数降维 - 图117 进行估计
最后再使用降维 - 图118 定理求出降维 - 图119 :
降维 - 图120
我们就可以得到每个样本点降维 - 图121 上的降维 - 图122 的分布降维 - 图123 ，可以选择这个分布的峰值点作为降维 - 图124 ，降维就完成了
为了方便计算，我们使用线性高斯模型来计算P-PCA
降维 - 图125 ，降维 - 图126 是观测数据降维 - 图127 ，降维 - 图128 是对应于降维 - 图129 子空间的隐变量降维 - 图130
假设：
隐变量降维 - 图131 具有先验分布为高斯分布
降维 - 图132
降维 - 图133 ，加入高斯噪声
降维 - 图134
则条件分布为：
降维 - 图135
降维 - 图136 可以分成两个阶段：1、降维 - 图137 降维 - 图138 ；2、降维 - 图139 降维 - 图140

降维 - 图142 可以用有向图表示：