我们将数据看作数据看作由N个p元随机变量组成的矩阵：
高斯分布 - 图1
这些随机事件都独立同分布（independent and identically distributed, iid）于多维高斯分布（高斯分布 - 图2 是数学期望，高斯分布 - 图3 是协方差矩阵），接下来求解该分布的极大似然估计（maximum likelihood estimation, MLE）。

一维形况的MLE

高斯分布 - 图4 时，高斯分布 - 图5
高斯分布 - 图6
根据极大似然估计定义：高斯分布 - 图7
对高斯分布 - 图8 求极值，最大值的极值应当为0，于是有：
高斯分布 - 图9 ，这时，MLE估计为无偏估计，因为MLE的数学期望：高斯分布 - 图10 ，可见二者是相等的。
对于高斯分布 - 图11 的MLE估计：
高斯分布 - 图12
高斯分布 - 图13
于是高斯分布 - 图14 高斯分布 - 图15 ，这时，MLE估计为有偏估计，计算其期望得：
高斯分布 - 图16
高斯分布 - 图17
高斯分布 - 图18
高斯分布 - 图19 高斯分布 - 图20
高斯分布 - 图21 ，可见MLE估计与真
实的方差并不相等，高斯分布 - 图22 的无偏估计应当为：高斯分布 - 图23

多维高斯分布

多为高斯分布的定义：
高斯分布 - 图24
其中，高斯分布 - 图25 ，高斯分布 - 图26 ，高斯分布 - 图27 是协方差矩阵，一般是半正定的，在后续的讨论中，只考虑正定的情形。概率分布函数（probability distribution function, PDF）的指数项是二次型，被定义为与之间的马氏距离，当是单位阵时，马氏距离与欧氏距离是相等的。为探讨马氏距离的几何意义，作如下讨论：
对Σ特征分解：高斯分布 - 图28 ，于是高斯分布 - 图29 ，则马氏距离的表达为：
高斯分布 - 图30
其中，高斯分布 - 图31 ，是向量高斯分布 - 图32
在特征向量高斯分布 - 图33 方向上的投影长度。为了更直观看到马氏距离的几何意义，我们取高斯分布 - 图34 ，此时高斯分布 - 图35 ，距离去不同的值，得到的是在高斯分布 - 图36 平面上一系列同心椭圆（球）。从PDF表达式上看，概率密度的值受指数项上的马氏距离所影响，因此这些椭圆实际上就是概率密度的等高线。

高斯模型的局限性

协方差矩阵涉及的自由度为，其自由参数个数为个，参数过多会影响算法效率。解决方法是对进行简化：（1）假设为对角阵，此时，即此时的椭圆的长短轴与轴正交；（2）进一步可以假设对角元素全部相等，此时马氏距离图像为圆，称之为各向同性。
高斯分布是单峰分布，不适合多峰分布的随机变量。解决方法：多峰拟合或者引入混合高斯模型。
高斯模型中联合概率密度计算
令随机变量，是维向量，是n维向量，，，，，目标计算，，，。
首先引入一个引理：

定理1：已知，，那么证明： $高斯分布 - 图56$ 证毕

构造高斯分布 - 图58 ，由定理1，高斯分布 - 图59 , 高斯分布 - 图60 ，从而可得高斯分布 - 图61 ，高斯分布 - 图62 。
继续构造高斯分布 - 图63 ，高斯分布 - 图64 ，高斯分布 - 图65 （schur complementary for 高斯分布 - 图66 ）。可以看出高斯分布 - 图67 ，由定理1：
高斯分布 - 图68
高斯分布 - 图69
且由构造关系，高斯分布 - 图70 ，因而由定理1：
高斯分布 - 图71
高斯分布 - 图72
推得高斯分布 - 图73 ，高斯分布 - 图74
可以利用上述结果求解线性模型：