高斯分布在机器学习中占有举足轻重的位置。
假设数据机器学习-白板推导系列(二)-数学基础-高斯分布 - 图1,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图2机器学习-白板推导系列(二)-数学基础-高斯分布 - 图3,令参数机器学习-白板推导系列(二)-数学基础-高斯分布 - 图4

一维高斯分布

高斯分布的极大似然估计

极大似然估计是频率派常用的参数估计的方法机器学习-白板推导系列(二)-数学基础-高斯分布 - 图5
同时我们已知一元和多元的高斯分布分别为:机器学习-白板推导系列(二)-数学基础-高斯分布 - 图6
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图7
为了便于说明,简化一下,只考虑一元的高斯分布,也就是机器学习-白板推导系列(二)-数学基础-高斯分布 - 图8,可得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图9
针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图10机器学习-白板推导系列(二)-数学基础-高斯分布 - 图11
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图12可得:机器学习-白板推导系列(二)-数学基础-高斯分布 - 图13
同理针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图14机器学习-白板推导系列(二)-数学基础-高斯分布 - 图15
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图16 可得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图17
这样就求得了两个参数的极大似然估计,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图18分别是无偏估计和有偏估计。
那如何判断参数的估计是有偏估计还是无偏估计呢?
如果一个变量的期望等于他的理想值,那么就称该变量无偏;否则称为有偏。 机器学习-白板推导系列(二)-数学基础-高斯分布 - 图19
下面分别来验证一下:
针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图20
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图21,因此机器学习-白板推导系列(二)-数学基础-高斯分布 - 图22是无偏的。
针对机器学习-白板推导系列(二)-数学基础-高斯分布 - 图23

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图24
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图25

已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图26,需要求一下机器学习-白板推导系列(二)-数学基础-高斯分布 - 图27
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图28

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图29代入机器学习-白板推导系列(二)-数学基础-高斯分布 - 图30中得,
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图31
所以机器学习-白板推导系列(二)-数学基础-高斯分布 - 图32是有偏估计。

思考一下这是为什么?
因为样本的均值并不等于期望,除非样本量无穷大时可以近似看作相等,即机器学习-白板推导系列(二)-数学基础-高斯分布 - 图33,而样本均值机器学习-白板推导系列(二)-数学基础-高斯分布 - 图34本身就是一个随机变量,机器学习-白板推导系列(二)-数学基础-高斯分布 - 图35,根据机器学习-白板推导系列(二)-数学基础-高斯分布 - 图36式计算的有偏估计为机器学习-白板推导系列(二)-数学基础-高斯分布 - 图37而真正的无偏估计为:机器学习-白板推导系列(二)-数学基础-高斯分布 - 图38
为什么分母是机器学习-白板推导系列(二)-数学基础-高斯分布 - 图39就变成无偏估计了?
真正的无偏估计机器学习-白板推导系列(二)-数学基础-高斯分布 - 图40
可以明显发现,机器学习-白板推导系列(二)-数学基础-高斯分布 - 图41,另外机器学习-白板推导系列(二)-数学基础-高斯分布 - 图42,为了逼近真正的无偏估计的方差,所以在机器学习-白板推导系列(二)-数学基础-高斯分布 - 图43前面乘以机器学习-白板推导系列(二)-数学基础-高斯分布 - 图44,最后分母就变成了机器学习-白板推导系列(二)-数学基础-高斯分布 - 图45

多维高斯分布

正如式机器学习-白板推导系列(二)-数学基础-高斯分布 - 图46所示,高维的高斯分布为 机器学习-白板推导系列(二)-数学基础-高斯分布 - 图47
假设 机器学习-白板推导系列(二)-数学基础-高斯分布 - 图48,机器学习-白板推导系列(二)-数学基础-高斯分布 - 图49为协方差矩阵。

不妨令机器学习-白板推导系列(二)-数学基础-高斯分布 - 图50, 它是一个二次型,其实机器学习-白板推导系列(二)-数学基础-高斯分布 - 图51是向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图52与向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图53之间的马氏距离


关于马氏距离简单提一下:
马氏距离是印度统计学家提出来的,表示数据的协方差距离,一种有效计算两个未知样本相似度的方法。与欧式距离不同的是,马氏距离考虑到各种特性之间的联系。 两个向量之间的马氏距离为:机器学习-白板推导系列(二)-数学基础-高斯分布 - 图54

image.png image.png
A和B有相同的欧式距离 A和B有相同的马氏距离


机器学习-白板推导系列(二)-数学基础-高斯分布 - 图57中,如果机器学习-白板推导系列(二)-数学基础-高斯分布 - 图58机器学习-白板推导系列(二)-数学基础-高斯分布 - 图59就是欧氏距离了。
注:此处的协方差矩阵机器学习-白板推导系列(二)-数学基础-高斯分布 - 图60一般而言是半正定矩阵,此处只考虑正定矩阵。
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图61是对称矩阵,对其进行特征值分解:机器学习-白板推导系列(二)-数学基础-高斯分布 - 图62,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图63
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图64
则进一步可以得到机器学习-白板推导系列(二)-数学基础-高斯分布 - 图65:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图66
将其带入机器学习-白板推导系列(二)-数学基础-高斯分布 - 图67得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图68

为了便于解释,不妨设机器学习-白板推导系列(二)-数学基础-高斯分布 - 图69,则 机器学习-白板推导系列(二)-数学基础-高斯分布 - 图70,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图71
假如此时令机器学习-白板推导系列(二)-数学基础-高斯分布 - 图72,可以发现这是一个圆锥曲线,机器学习-白板推导系列(二)-数学基础-高斯分布 - 图73就是向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图74在特征向量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图75上的投影,对于不同的机器学习-白板推导系列(二)-数学基础-高斯分布 - 图76,就会对应不同的同心椭圆,假如特征值机器学习-白板推导系列(二)-数学基础-高斯分布 - 图77都是常数的话,就会变成同心圆。

高斯分布的一个重要特性:如果两组随机变量的联合分布是高斯的,那么已知一组随机变量的条件下,另一组随机变量也是高斯分布;同样,任意一组随机变量的边缘分布也是高斯的。用数学语言表示就是如果机器学习-白板推导系列(二)-数学基础-高斯分布 - 图78是两组随机变量,如果机器学习-白板推导系列(二)-数学基础-高斯分布 - 图79服从联合高斯分布,则机器学习-白板推导系列(二)-数学基础-高斯分布 - 图80也服从高斯分布,机器学习-白板推导系列(二)-数学基础-高斯分布 - 图81也服从高斯分布。

多维高斯分布为:机器学习-白板推导系列(二)-数学基础-高斯分布 - 图82,对于指数项,可以进一步化简为:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图83,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图84为常量。
这就意味着如果能找到一个高斯分布指数项的二次部分和一次部分就能求得这个分布的期望和方差,进而求得这个高斯分布。

已知联合高斯分布求条件分布和边缘概率分布

假设机器学习-白板推导系列(二)-数学基础-高斯分布 - 图85,将机器学习-白板推导系列(二)-数学基础-高斯分布 - 图86拆成两部分即机器学习-白板推导系列(二)-数学基础-高斯分布 - 图87,那么机器学习-白板推导系列(二)-数学基础-高斯分布 - 图88,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图89
为了保持简洁,常常使用精度矩阵(Precision matrix),其定义为协方差矩阵的逆。
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图90,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图91

求条件分布

如果已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图92,求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图93的分布,也就是求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图94
由于联合分布是高斯分布,所以两个边缘分布和条件分布也都是高斯分布,因此也就是求期望机器学习-白板推导系列(二)-数学基础-高斯分布 - 图95和协方差矩阵机器学习-白板推导系列(二)-数学基础-高斯分布 - 图96
经过复杂的计算推导可得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图97

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图98
同理,如果已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图99,求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图100的分布,也就是求机器学习-白板推导系列(二)-数学基础-高斯分布 - 图101
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图102
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图103

求边缘概率分布

已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图104的联合概率分布,求边缘概率分布机器学习-白板推导系列(二)-数学基础-高斯分布 - 图105
经过复杂的计算推导可得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图106
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图107
同理已知机器学习-白板推导系列(二)-数学基础-高斯分布 - 图108的联合概率分布,求边缘概率分布机器学习-白板推导系列(二)-数学基础-高斯分布 - 图109
经过复杂的计算推导可得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图110
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图111

计算过程中用到了分块矩阵的逆矩阵:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图112

其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图113

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图114,便可以得到一一对应的关系。

高斯分布的贝叶斯定理

已知一个多维随机变量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图115,另外一个多维随机变量机器学习-白板推导系列(二)-数学基础-高斯分布 - 图116机器学习-白板推导系列(二)-数学基础-高斯分布 - 图117已知的条件也服从高斯分布,且均值为机器学习-白板推导系列(二)-数学基础-高斯分布 - 图118的线性变换,即机器学习-白板推导系列(二)-数学基础-高斯分布 - 图119,其中机器学习-白板推导系列(二)-数学基础-高斯分布 - 图120为精度矩阵。
这是一个线性高斯的一个例子,该问题所求为边缘分布机器学习-白板推导系列(二)-数学基础-高斯分布 - 图121机器学习-白板推导系列(二)-数学基础-高斯分布 - 图122的后验分布机器学习-白板推导系列(二)-数学基础-高斯分布 - 图123

思路先定义机器学习-白板推导系列(二)-数学基础-高斯分布 - 图124求求联合分布机器学习-白板推导系列(二)-数学基础-高斯分布 - 图125,根据前面已知联合高斯分布求条件分布和边缘概率分布,进而求解。
最后求得:
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图126
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图127

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图128
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图129

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图130
机器学习-白板推导系列(二)-数学基础-高斯分布 - 图131
以上推导十分复杂,需要具备良好的线性代数基础,若需完成的数学推导过程,请看下面这篇博客:

由于这篇博客推导十分详细清楚,故此此处也就不再做重复工作了。

高斯分布的局限性

  • 参数太多。

机器学习-白板推导系列(二)-数学基础-高斯分布 - 图132协方差矩阵是机器学习-白板推导系列(二)-数学基础-高斯分布 - 图133的,由于其实对称矩阵,那么实际上参数有机器学习-白板推导系列(二)-数学基础-高斯分布 - 图134 个,为了降低参数量,假设机器学习-白板推导系列(二)-数学基础-高斯分布 - 图135为对角矩阵机器学习-白板推导系列(二)-数学基础-高斯分布 - 图136,相关的算法有因子分析(factor analysis)等,甚至令特征值机器学习-白板推导系列(二)-数学基础-高斯分布 - 图137都相等,这种情况称为各同向性,相关算法有概率PCA(p-PCA)。

  • 其本身的局限性。它本质上单峰的,一个高斯分布难以很好的刻画数据的分布,此时需要用到多个高斯分布,即混合高斯分布GMM。


参考