一维高斯分布
- 高斯分布的极大似然估计
多维高斯分布
- 已知联合高斯分布求条件分布和边缘概率分布
  - 求条件分布
  - 求边缘概率分布
- 高斯分布的贝叶斯定理
高斯分布的局限性
参考

高斯分布在机器学习中占有举足轻重的位置。
假设数据机器学习-白板推导系列(二)-数学基础-高斯分布 - 图1 ,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图2 ，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图3 ，令参数机器学习-白板推导系列(二)-数学基础-高斯分布 - 图4

一维高斯分布

高斯分布的极大似然估计

极大似然估计是频率派常用的参数估计的方法机器学习-白板推导系列(二)-数学基础-高斯分布 - 图5
同时我们已知一元和多元的高斯分布分别为：机器学习-白板推导系列(二)-数学基础-高斯分布 - 图6
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图7
为了便于说明，简化一下，只考虑一元的高斯分布，也就是机器学习-白板推导系列(二)-数学基础-高斯分布 - 图8 ，可得：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图9
针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图10 ，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图11
令机器学习-白板推导系列(二)-数学基础-高斯分布 - 图12 可得：机器学习-白板推导系列(二)-数学基础-高斯分布 - 图13
同理针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图14 ，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图15
令机器学习-白板推导系列(二)-数学基础-高斯分布 - 图16 可得：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图17
这样就求得了两个参数的极大似然估计，其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图18 分别是无偏估计和有偏估计。
那如何判断参数的估计是有偏估计还是无偏估计呢?
如果一个变量的期望等于他的理想值，那么就称该变量无偏；否则称为有偏。即
下面分别来验证一下：
针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图20 ，
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图21 ，因此机器学习-白板推导系列(二)-数学基础-高斯分布 - 图22 是无偏的。
针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图23 ，

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图24
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图25

已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图26 ，需要求一下机器学习-白板推导系列(二)-数学基础-高斯分布 - 图27
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图28

将机器学习-白板推导系列(二)-数学基础-高斯分布 - 图29 代入机器学习-白板推导系列(二)-数学基础-高斯分布 - 图30 中得，
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图31
所以机器学习-白板推导系列(二)-数学基础-高斯分布 - 图32 是有偏估计。

思考一下这是为什么？
因为样本的均值并不等于期望，除非样本量无穷大时可以近似看作相等，即机器学习-白板推导系列(二)-数学基础-高斯分布 - 图33 ，而样本均值机器学习-白板推导系列(二)-数学基础-高斯分布 - 图34 本身就是一个随机变量，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图35 ，根据机器学习-白板推导系列(二)-数学基础-高斯分布 - 图36 式计算的有偏估计为机器学习-白板推导系列(二)-数学基础-高斯分布 - 图37 而真正的无偏估计为：机器学习-白板推导系列(二)-数学基础-高斯分布 - 图38
为什么分母是就变成无偏估计了?
真正的无偏估计
可以明显发现，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图41 ，另外机器学习-白板推导系列(二)-数学基础-高斯分布 - 图42 ，为了逼近真正的无偏估计的方差，所以在机器学习-白板推导系列(二)-数学基础-高斯分布 - 图43 前面乘以机器学习-白板推导系列(二)-数学基础-高斯分布 - 图44 ，最后分母就变成了机器学习-白板推导系列(二)-数学基础-高斯分布 - 图45 。

多维高斯分布

正如式机器学习-白板推导系列(二)-数学基础-高斯分布 - 图46 所示，高维的高斯分布为机器学习-白板推导系列(二)-数学基础-高斯分布 - 图47 ，
假设机器学习-白板推导系列(二)-数学基础-高斯分布 - 图48 , 机器学习-白板推导系列(二)-数学基础-高斯分布 - 图49 为协方差矩阵。

不妨令机器学习-白板推导系列(二)-数学基础-高斯分布 - 图50 , 它是一个二次型，其实机器学习-白板推导系列(二)-数学基础-高斯分布 - 图51 是向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图52 与向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图53 之间的马氏距离

关于马氏距离简单提一下：
马氏距离是印度统计学家提出来的，表示数据的协方差距离，一种有效计算两个未知样本相似度的方法。与欧式距离不同的是，马氏距离考虑到各种特性之间的联系。两个向量之间的马氏距离为：

A和B有相同的欧式距离 A和B有相同的马氏距离

在机器学习-白板推导系列(二)-数学基础-高斯分布 - 图57 中，如果机器学习-白板推导系列(二)-数学基础-高斯分布 - 图58 ，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图59 就是欧氏距离了。
注：此处的协方差矩阵机器学习-白板推导系列(二)-数学基础-高斯分布 - 图60 一般而言是半正定矩阵，此处只考虑正定矩阵。
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图61 是对称矩阵，对其进行特征值分解：机器学习-白板推导系列(二)-数学基础-高斯分布 - 图62 ，其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图63
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图64
则进一步可以得到机器学习-白板推导系列(二)-数学基础-高斯分布 - 图65 :
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图66
将其带入机器学习-白板推导系列(二)-数学基础-高斯分布 - 图67 得：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图68

为了便于解释，不妨设机器学习-白板推导系列(二)-数学基础-高斯分布 - 图69 ,则机器学习-白板推导系列(二)-数学基础-高斯分布 - 图70 ，其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图71
假如此时令机器学习-白板推导系列(二)-数学基础-高斯分布 - 图72 ，可以发现这是一个圆锥曲线，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图73 就是向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图74 在特征向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图75 上的投影，对于不同的机器学习-白板推导系列(二)-数学基础-高斯分布 - 图76 ,就会对应不同的同心椭圆，假如特征值机器学习-白板推导系列(二)-数学基础-高斯分布 - 图77 都是常数的话，就会变成同心圆。

高斯分布的一个重要特性：如果两组随机变量的联合分布是高斯的，那么已知一组随机变量的条件下，另一组随机变量也是高斯分布；同样，任意一组随机变量的边缘分布也是高斯的。用数学语言表示就是如果机器学习-白板推导系列(二)-数学基础-高斯分布 - 图78 是两组随机变量，如果机器学习-白板推导系列(二)-数学基础-高斯分布 - 图79 服从联合高斯分布，则机器学习-白板推导系列(二)-数学基础-高斯分布 - 图80 也服从高斯分布，机器学习-白板推导系列(二)-数学基础-高斯分布 - 图81 也服从高斯分布。

多维高斯分布为：机器学习-白板推导系列(二)-数学基础-高斯分布 - 图82 ，对于指数项，可以进一步化简为：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图83 ，其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图84 为常量。
这就意味着如果能找到一个高斯分布指数项的二次部分和一次部分就能求得这个分布的期望和方差，进而求得这个高斯分布。

已知联合高斯分布求条件分布和边缘概率分布

假设机器学习-白板推导系列(二)-数学基础-高斯分布 - 图85 ，将机器学习-白板推导系列(二)-数学基础-高斯分布 - 图86 拆成两部分即机器学习-白板推导系列(二)-数学基础-高斯分布 - 图87 ,那么机器学习-白板推导系列(二)-数学基础-高斯分布 - 图88 ,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图89 。
为了保持简洁，常常使用精度矩阵（Precision matrix），其定义为协方差矩阵的逆。
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图90 ,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图91

求条件分布

如果已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图92 ,求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图93 的分布，也就是求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图94 。
由于联合分布是高斯分布，所以两个边缘分布和条件分布也都是高斯分布，因此也就是求期望机器学习-白板推导系列(二)-数学基础-高斯分布 - 图95 和协方差矩阵机器学习-白板推导系列(二)-数学基础-高斯分布 - 图96 。
经过复杂的计算推导可得：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图97

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图98
同理，如果已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图99 ,求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图100 的分布，也就是求。

求边缘概率分布

已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图104 的联合概率分布，求边缘概率分布。
经过复杂的计算推导可得：

同理已知的联合概率分布，求边缘概率分布。
经过复杂的计算推导可得：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图110

计算过程中用到了分块矩阵的逆矩阵：
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图112

其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图113

由机器学习-白板推导系列(二)-数学基础-高斯分布 - 图114 ，便可以得到一一对应的关系。

高斯分布的贝叶斯定理

已知一个多维随机变量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图115 ，另外一个多维随机变量在已知的条件也服从高斯分布，且均值为的线性变换，即，其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图120 为精度矩阵。
这是一个线性高斯的一个例子，该问题所求为边缘分布和的后验分布。