我们将数据看作数据看作由N个p元随机变量组成的矩阵:
高斯分布 - 图1
这些随机事件都独立同分布(independent and identically distributed, iid)于多维高斯分布(高斯分布 - 图2是数学期望,高斯分布 - 图3是协方差矩阵),接下来求解该分布的极大似然估计(maximum likelihood estimation, MLE)。

一维形况的MLE

高斯分布 - 图4时,高斯分布 - 图5
高斯分布 - 图6
根据极大似然估计定义:高斯分布 - 图7
高斯分布 - 图8求极值,最大值的极值应当为0,于是有:
高斯分布 - 图9,这时,MLE估计为无偏估计,因为MLE的数学期望:高斯分布 - 图10,可见二者是相等的。
对于高斯分布 - 图11的MLE估计:
高斯分布 - 图12
高斯分布 - 图13
于是高斯分布 - 图14高斯分布 - 图15,这时,MLE估计为有偏估计,计算其期望得:
高斯分布 - 图16
高斯分布 - 图17
高斯分布 - 图18
高斯分布 - 图19高斯分布 - 图20
高斯分布 - 图21,可见MLE估计与真
实的方差并不相等,高斯分布 - 图22的无偏估计应当为:高斯分布 - 图23

多维高斯分布

多为高斯分布的定义:
高斯分布 - 图24
其中,高斯分布 - 图25高斯分布 - 图26高斯分布 - 图27是协方差矩阵,一般是半正定的,在后续的讨论中,只考虑正定的情形。概率分布函数(probability distribution function, PDF)的指数项是二次型,被定义为与之间的马氏距离,当是单位阵时,马氏距离与欧氏距离是相等的。为探讨马氏距离的几何意义,作如下讨论:
Σ特征分解:高斯分布 - 图28,于是高斯分布 - 图29,则马氏距离的表达为:
高斯分布 - 图30
其中,高斯分布 - 图31,是向量高斯分布 - 图32
在特征向量高斯分布 - 图33方向上的投影长度。为了更直观看到马氏距离的几何意义,我们取高斯分布 - 图34,此时高斯分布 - 图35,距离去不同的值,得到的是在高斯分布 - 图36平面上一系列同心椭圆(球)。从PDF表达式上看,概率密度的值受指数项上的马氏距离所影响,因此这些椭圆实际上就是概率密度的等高线

高斯模型的局限性

  1. 协方差矩阵高斯分布 - 图37涉及的自由度为高斯分布 - 图38,其自由参数个数为高斯分布 - 图39个,参数过多会影响算法效率。解决方法是对进行简化:(1) 假设为对角阵,此时高斯分布 - 图40,即此时的椭圆的长短轴与高斯分布 - 图41轴正交;(2) 进一步可以假设对角元素全部相等,此时马氏距离图像为圆,称之为各向同性。
  2. 高斯分布是单峰分布,不适合多峰分布的随机变量。解决方法:多峰拟合或者引入混合高斯模型。

    高斯模型中联合概率密度计算

    令随机变量高斯分布 - 图42高斯分布 - 图43是维向量,高斯分布 - 图44是n维向量,高斯分布 - 图45高斯分布 - 图46高斯分布 - 图47高斯分布 - 图48,目标计算高斯分布 - 图49高斯分布 - 图50高斯分布 - 图51高斯分布 - 图52
    首先引入一个引理:

    定理1:已知高斯分布 - 图53高斯分布 - 图54,那么高斯分布 - 图55 证明: 高斯分布 - 图56 高斯分布 - 图57 证毕

构造高斯分布 - 图58,由定理1,高斯分布 - 图59,高斯分布 - 图60,从而可得高斯分布 - 图61高斯分布 - 图62
继续构造高斯分布 - 图63高斯分布 - 图64高斯分布 - 图65(schur complementary for 高斯分布 - 图66)。可以看出高斯分布 - 图67,由定理1:
高斯分布 - 图68
高斯分布 - 图69
且由构造关系,高斯分布 - 图70,因而由定理1:
高斯分布 - 图71
高斯分布 - 图72
推得高斯分布 - 图73高斯分布 - 图74
可以利用上述结果求解线性模型:

例1(线性模型):已知高斯分布 - 图75高斯分布 - 图76,求解高斯分布 - 图77。 解: 由题高斯分布 - 图78服从高斯分布,令高斯分布 - 图79,其中高斯分布 - 图80。从而高斯分布 - 图81高斯分布 - 图82(注意相互独立),因此高斯分布 - 图83 引入高斯分布 - 图84高斯分布 - 图85之间的协方差为: 高斯分布 - 图86 高斯分布 - 图87 利用协方差矩阵的对称性: 高斯分布 - 图88 由之前的模型: 高斯分布 - 图89 高斯分布 - 图90 从而 高斯分布 - 图91 解毕