理解协方差矩阵 - 《深度学习》

1. 方差和协方差的定义
2. 从方差/协方差到协方差矩阵
3. 多元正态分布于线性变换
4. 协方差矩阵的特征值分解

1. 方差和协方差的定义

在统计学中，方差是用来度量单个随机变量的离散程度，而协方差则一般用来刻画两个随机变量的相似程度，其中，方差的计算公式为
理解协方差矩阵 - 图1
其中，理解协方差矩阵 - 图2 表示样本量，符号理解协方差矩阵 - 图3 表示观测样本的均值。

在此基础上，协方差的计算公式被定义为
理解协方差矩阵 - 图4

2. 从方差/协方差到协方差矩阵

对角线上的元素为各个随机变量的方差，非对角线上的元素为两两随机变量之间的协方差，协方差矩阵为
理解协方差矩阵 - 图5
其中理解协方差矩阵 - 图6 为对称矩阵。

3. 多元正态分布于线性变换

假设一个向量理解协方差矩阵 - 图7 服从均值向量为理解协方差矩阵 - 图8 、协方差矩阵为理解协方差矩阵 - 图9 的多元正态分布(multi-variate Gaussian distribution)，则
理解协方差矩阵 - 图10
进一步简化为
理解协方差矩阵 - 图11
再令理解协方差矩阵 - 图12 ，包含两个随机变量理解协方差矩阵 - 图13 和理解协方差矩阵 - 图14 ，则协方差矩阵可写成如下形式：
理解协方差矩阵 - 图15

用单位矩阵(identity matrix) 理解协方差矩阵 - 图16 作为协方差矩阵，随机变量理解协方差矩阵 - 图17 和理解协方差矩阵 - 图18 的方差均为1，则生成若干个随机数如图1所示。

图1 标准的二元正态分布
在生成的若干个随机数中，每个点的似然为
理解协方差矩阵 - 图20

对图1中的所有点考虑一个线性变换(linear transformation)：理解协方差矩阵 - 图21 ，我们能够得到图2。

图2 经过线性变换的二元正态分布，先将图1的纵坐标压缩0.5倍，再将所有点逆时针旋转30°得到

在线性变换中，矩阵理解协方差矩阵 - 图23 被称为变换矩阵(transformation matrix)，为了将图1中的点经过线性变换得到我们想要的图2，其实我们需要构造两个矩阵：

尺度矩阵(scaling matrix)：

理解协方差矩阵 - 图24

旋转矩阵(rotation matrix)

理解协方差矩阵 - 图25
其中，理解协方差矩阵 - 图26 为顺时针旋转的度数。
变换矩阵、尺度矩阵和旋转矩阵三者的关系式：
理解协方差矩阵 - 图27
另外，需要考虑的是，经过了线性变换，理解协方差矩阵 - 图28 的分布是什么样子呢？
将理解协方差矩阵 - 图29 带入前面给出的似然理解协方差矩阵 - 图30 ，有
理解协方差矩阵 - 图31
由此可以得到，多元正态分布的协方差矩阵为
理解协方差矩阵 - 图32