Probability Distribution 概率分布 - Multivariate Gaussian Distribution 多元高斯分布 - 《Mathhhhhh》

1 一维高斯分布
2 多元高斯分布：从一维到高维
3 协方差矩阵与特征分解
4 Reference

对于高维随机变量 Multivariate Gaussian Distribution 多元高斯分布 - 图1 ，样本均值为和协方差矩阵，服从多元高斯分布的概率密度函数（Probability Density Function, PDF）为：

令 Multivariate Gaussian Distribution 多元高斯分布 - 图4 ,

其中样本均值 Multivariate Gaussian Distribution 多元高斯分布 - 图6 就是各个维度的均值，设一共有个样本，有：

Multivariate Gaussian Distribution 多元高斯分布 - 图9

而协方差矩阵可以参考另一篇文章。

本文不涉及多元高斯分布的数学推导，只希望对多元高斯分布的表达式进行直观的剖析，解释多元高斯分布中协方差矩阵的作用。详细高斯分布的数学推导，可以参考文章。

1 一维高斯分布

高斯分布（Gaussian distribution）又被称为正态分布（normal distribution）。一维随机变量 Multivariate Gaussian Distribution 多元高斯分布 - 图10 服从于均值为方差为的高斯分布可以被记为，其概率密度函数 PDF 为

Multivariate Gaussian Distribution 多元高斯分布 - 图14

其中 Multivariate Gaussian Distribution 多元高斯分布 - 图15 可以看作是归一化因子，主要是为了。BTW，这里插一句证明高斯概率密度函数的积分为 1。这个积分无法直接求出，需要通过一点 trick。

要证明 Multivariate Gaussian Distribution 多元高斯分布 - 图18 ，只需要证明，进而只需证明。接下来证明：

首先看到 Multivariate Gaussian Distribution 多元高斯分布 - 图21 对于积分的值没有贡献，所以只需证明。

Multivariate Gaussian Distribution 多元高斯分布 - 图23

将 Multivariate Gaussian Distribution 多元高斯分布 - 图24 转换到极坐标：
%22%20aria-hidden%3D%22true%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJSZ3-7B%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(917%2C0)%22%3E%0A%3Cg%20transform%3D%22translate(-11%2C0)%22%3E%0A%3Cg%20transform%3D%22translate(0%2C633)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-78%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-3D%22%20x%3D%22850%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%221906%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(2524%2C0)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-63%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-6F%22%20x%3D%22444%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-73%22%20x%3D%22945%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-3B8%22%20x%3D%224030%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3Cg%20transform%3D%22translate(0%2C-727)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-79%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-3D%22%20x%3D%22775%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%221831%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(2449%2C0)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-73%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-69%22%20x%3D%22394%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-6E%22%20x%3D%22673%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-3B8%22%20x%3D%223845%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fsvg%3E#card=math&code=%5Cbegin%7Bcases%7D%0Ax%20%3D%20r%5Ccos%5Ctheta%20%5C%5C%0Ay%20%3D%20r%5Csin%5Ctheta%0A%5Cend%7Bcases%7D&id=Wdsuk)

用极坐标就一定要标好换元后的定义域：

Multivariate Gaussian Distribution 多元高斯分布 - 图26

此外，积分式中的 Multivariate Gaussian Distribution 多元高斯分布 - 图27 也应该被替换成，快速的求法为雅可比矩阵的行列式。雅可比矩阵为：

Multivariate Gaussian Distribution 多元高斯分布 - 图29

雅可比矩阵的行列式为 Multivariate Gaussian Distribution 多元高斯分布 - 图30 ，故 (4) 中的积分式经过换元后有：

Multivariate Gaussian Distribution 多元高斯分布 - 图31

得证。

如果对一般高斯分布进行还换元，令 Multivariate Gaussian Distribution 多元高斯分布 - 图32 ，有，则

Multivariate Gaussian Distribution 多元高斯分布 - 图34

为了使 Multivariate Gaussian Distribution 多元高斯分布 - 图35 在上的积分等于1，需要，故得到随机变量的概率密度函数

Multivariate Gaussian Distribution 多元高斯分布 - 图39

此时 Multivariate Gaussian Distribution 多元高斯分布 - 图40 服从于一维标准高斯（正态）分布。

2 多元高斯分布：从一维到高维

首先从最简单的情况说起。假设现在有 Multivariate Gaussian Distribution 多元高斯分布 - 图41 维随机变量，其中服从于标准正态分布，且互相独立（）。令变量，那么该高维随机变量的概率密度函数为

Multivariate Gaussian Distribution 多元高斯分布 - 图47

令 Multivariate Gaussian Distribution 多元高斯分布 - 图48 为一个常数，则可以得到的等高线，是一个圆。当随机变量为二维的时候，有

画出图像：

import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')
x1 = np.random.normal(0, 1, 500)
x2 = np.random.normal(0, 1, 500)
X = np.stack((x1, x2))  # (2, 500)
plt.scatter(X[0, :], X[1, :])
plt.title('$x_1, x_2 \\sim N(0, 1)$')
plt.xlabel("$x_1$")
plt.ylabel("$x_2$")
plt.axis('equal')
plt.show()

接下来对 Multivariate Gaussian Distribution 多元高斯分布 - 图54 进行线性变换。首先是伸缩变换（Scaling），可以用矩阵表示

Multivariate Gaussian Distribution 多元高斯分布 - 图56

得到

Multivariate Gaussian Distribution 多元高斯分布 - 图57

令 Multivariate Gaussian Distribution 多元高斯分布 - 图58 ，画出图像

import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')
np.random.seed(210224)
S = np.array([[1.5, 0], [0, 3]])
x1 = np.random.normal(0, 1, 500)
x2 = np.random.normal(0, 1, 500)
X = np.stack((x1, x2))  # (2, 500)
Z = np.matmul(S, X)  # scaling
plt.scatter(Z[0, :], Z[1, :])
plt.title("$z = Sx$")
plt.xlabel("$z_1$")
plt.ylabel("$z_2$")
plt.axis('equal')
plt.show()

可以看到的横坐标和纵坐标分别被缩放了 1.5 和 3 倍得到和。

随后是旋转变换（ratation），可以用旋转矩阵 Multivariate Gaussian Distribution 多元高斯分布 - 图65 来表示：

Multivariate Gaussian Distribution 多元高斯分布 - 图66

得到

Multivariate Gaussian Distribution 多元高斯分布 - 图67

令 Multivariate Gaussian Distribution 多元高斯分布 - 图68 ，则有

import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')
np.random.seed(210224)
theta = np.deg2rad(30)
S = np.array([[1.5, 0], [0, 3]])
R = np.array([[np.cos(theta), -np.sin(theta)], [np.sin(theta), np.cos(theta)]])
x1 = np.random.normal(0, 1, 500)
x2 = np.random.normal(0, 1, 500)
X = np.stack((x1, x2))  # (2, 500)
Z = np.matmul(S, X)  # scaling
Z = np.matmul(R, Z)  # rotation
plt.scatter(Z[0, :], Z[1, :])
plt.title("$z = Sx$")
plt.xlabel("$z_1$")
plt.ylabel("$z_2$")
plt.axis('equal')
plt.show()

可以看到图像整体逆时针旋转了 30o。

再对 Multivariate Gaussian Distribution 多元高斯分布 - 图70 沿着方向进行平移（translation），得到

import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')
np.random.seed(210224)
theta = np.deg2rad(30)
S = np.array([[1.5, 0], [0, 3]])
R = np.array([[np.cos(theta), -np.sin(theta)], [np.sin(theta), np.cos(theta)]])
mu = np.array([2, 3]).reshape((2, 1))
x1 = np.random.normal(0, 1, 500)
x2 = np.random.normal(0, 1, 500)
X = np.stack((x1, x2))  # (2, 500)
Z = np.matmul(S, X)  # scaling
Z = np.matmul(R, Z)  # rotation
Z += mu  # translation
plt.scatter(Z[0, :], Z[1, :])
plt.title("$z = RSx + \\mu$")
plt.xlabel("$z_1$")
plt.ylabel("$z_2$")
plt.axis('equal')
plt.show()