回归
从四个部分来思考一个多元的高斯分布(例如一个d维高斯分布)

  • 第一部分:存在 多维数据高斯分布 - 图1, 并且 多维数据高斯分布 - 图2,其中多维数据高斯分布 - 图3为平均向量,多维数据高斯分布 - 图4为Covariance matrix
  • 第二部分:一个i.i.d - Independent and identically distributed的高斯模型
  • 第三部分:最大似然估计 - Maximum likelihood
  • 第四部分:保留未定义

第一部分

多维数据高斯分布密度函数为

多维数据高斯分布 - 图5%20%3A%3D%20%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%5Cfrac%7Bd%7D%7B2%7D%5Csqrt%7Bdet(%5CSigma)%7D%7Dexp(-%5Cfrac%7B1%7D%7B2%7D(x-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x-%5Cmu))%0A#card=math&code=p%28x%7C%5Cmu%2C%20%5CSigma%29%20%3A%3D%20%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%5Cfrac%7Bd%7D%7B2%7D%5Csqrt%7Bdet%28%5CSigma%29%7D%7Dexp%28-%5Cfrac%7B1%7D%7B2%7D%28x-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x-%5Cmu%29%29%0A)

其中多维数据高斯分布 - 图6, 多维数据高斯分布 - 图7为数据均值(期望)

中心矩为:

多维数据高斯分布 - 图8dx%20%3D%20%5Cmu%2C%0A#card=math&code=%5Cmathbb%7BE%7D%5Bx%5D%20%3D%20%5Cint_%7B%5Cmathbb%7BR%5Ed%7D%7Dxp%28x%7C%5Cmu%2C%20%5CSigma%29dx%20%3D%20%5Cmu%2C%0A)

多维数据高斯分布 - 图9%20%3D%20%5Cmathbb%7BE%7D%5B(x%20-%20%5Cmathbb%7BE%7D%5Bx%5D)(x%20-%20%5Cmathbb%7BE%7D%5Bx%5D)%5ET%5D%20%3D%20%5Cmathbb%7BE%7D%5Bxx%5ET%5D%20-%20%5Cmathbb%7BE%7D%5Bx%5D%5Cmathbb%7BE%7D%5Bx%5D%5ET%20%3D%20%5CSigma.%0A#card=math&code=Cov%28x%29%20%3D%20%5Cmathbb%7BE%7D%5B%28x%20-%20%5Cmathbb%7BE%7D%5Bx%5D%29%28x%20-%20%5Cmathbb%7BE%7D%5Bx%5D%29%5ET%5D%20%3D%20%5Cmathbb%7BE%7D%5Bxx%5ET%5D%20-%20%5Cmathbb%7BE%7D%5Bx%5D%5Cmathbb%7BE%7D%5Bx%5D%5ET%20%3D%20%5CSigma.%0A)

第二部分

概率模型

  • 一个概率模型是一组概率分布的数据,多维数据高斯分布 - 图10#card=math&code=p%28x%7C%5Ctheta%29)
  • 选择一个分布族多维数据高斯分布 - 图11#card=math&code=p%28%C2%B7%29),

基于高斯分布来进行数据建模,即多维数据高斯分布 - 图12%2C%20%5Ctheta%20%3D%20%5Cleft%5C%7B%20%5Cmu%2C%20%5CSigma%20%5Cright%5C%7D#card=math&code=p%28x%7C%5Ctheta%29%2C%20%5Ctheta%20%3D%20%5Cleft%5C%7B%20%5Cmu%2C%20%5CSigma%20%5Cright%5C%7D)

i.i.d假设

假定数据满足具有独立的分布性,且具有相同的分布,即独立同分布,在概率统计理论里,指各事件独立,同时满足同一个概率分布,在此:

多维数据高斯分布 - 图13%2C%20%20i%20%3D%201%2C…%2C%20n%0A#card=math&code=x_i%20%5Csim%20p%28x%7C%5Ctheta%29%2C%20%20i%20%3D%201%2C…%2C%20n%0A)

将密度函数记为多维数据高斯分布 - 图14#card=math&code=p%28x%7C%5Ctheta%29), 因此联合概率为,其实就是我们的似然函数:

多维数据高斯分布 - 图15%20%3D%20%5Cprod%7Bi%3D1%7D%5E%7Bn%7Dp(x_i%7C%5Ctheta)%0A#card=math&code=p%28x_1%2C%20…%2C%20x_n%7C%5Ctheta%29%20%3D%20%5Cprod%7Bi%3D1%7D%5E%7Bn%7Dp%28x_i%7C%5Ctheta%29%0A)

第三部分

最大似然法

现在需要找出模型参数多维数据高斯分布 - 图16,由于我们的数据已知,因此可以考虑使用最大似然估计法来找出这个参数,最大似然估计是通过已知数据的结果信息,用以反推导致该结果最大概率出现的模型参数值。在此可以表示为:

多维数据高斯分布 - 图17%0A#card=math&code=%5Chat%7B%5Ctheta%7D_%7BML%7D%20%3A%3D%20arg%20max%20%5Cquad%20p%28x_1%2C%20…%2C%20x_n%7C%5Ctheta%29%0A)

多维数据高斯分布 - 图18为我们要求的值,即最大似然量,能使我们的似然方程达到最大值,这个结果能够根据我们选择的分布族最好的解释数据。

最大似然方程

要得出这个结果,我们遵循最大似然准则,表示函数最大值的最优性准则,即梯度(导数)为零的点,记作:

多维数据高斯分布 - 图19%20%3D%200%0A#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%200%0A)

简单的说,最大值即峰值。

对数技巧

单独计算多维数据高斯分布 - 图20%20%3D%200#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28xi%7C%5Ctheta%29%20%3D%200)是一个复杂的过程,对此我们利用对数的性质,在实数域中,定义域为多维数据高斯分布 - 图21#card=math&code=%280%2C%20%2B%5Cinfty%29)区间中为单调递增,即在![](https://g.yuque.com/gr/latex?%5Cmathbb%7BR%7D%2B#card=math&code=%5Cmathbb%7BR%7D_%2B)单调递增。并且由于取对数,不会改变函数的单调性,即不改变最大或者最小值的位置,因此我们求解时,可以转化成求似然方程的对数方程:

多维数据高斯分布 - 图22%20%3D%20%5Csum%7Bi%7Dlnf(f_i)%0A#card=math&code=ln%28%5Cprod_if_i%29%20%3D%20%5Csum%7Bi%7Dlnf%28f_i%29%0A)

多维数据高斯分布 - 图23%20%5Cneq%20max%20%5Cquad%20g(y)%20%5Cquad%20%5Cquad#card=math&code=max%20%5Cquad%20lng%28y%29%20%5Cneq%20max%20%5Cquad%20g%28y%29%20%5Cquad%20%5Cquad)最大值改变

多维数据高斯分布 - 图24%20%3D%20argmax%20%5Cquad%20g(y)%20%5Cquad%20%5Cquad#card=math&code=argmax%20%5Cquad%20lng%28y%29%20%3D%20argmax%20%5Cquad%20g%28y%29%20%5Cquad%20%5Cquad)极值的位置不变

因此我们可以将多维数据高斯分布 - 图25转化为:

多维数据高斯分布 - 图26%20%3D%20argmaxln%5CBig(%5Cprod%5En%7Bi%3D1%7Dp(x_i%7C%5Ctheta)%5CBig)%20%3D%20argmax%5Csum%5En%7Bi%3D1%7Dlnp(xi%7C%5Ctheta)%0A#card=math&code=%5Chat%7B%5Ctheta%7D%7BML%7D%20%3D%20argmax%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%20argmaxln%5CBig%28%5Cprod%5En%7Bi%3D1%7Dp%28xi%7C%5Ctheta%29%5CBig%29%20%3D%20argmax%5Csum%5En%7Bi%3D1%7Dlnp%28x_i%7C%5Ctheta%29%0A)

为了找到多维数据高斯分布 - 图27,因此转换求梯度(导数)方程为:

多维数据高斯分布 - 图28%20%3D%20%5Cnabla%7B%5Ctheta%7D%5Csum%5En%7Bi%3D1%7Dlnp(xi%7C%5Ctheta)%20%3D%20%5Csum%5En%7Bi%3D1%7D%5Cnabla%5Ctheta%20lnp(x_i%7C%5Ctheta)%20%3D%200%0A#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%20%5Cnabla%7B%5Ctheta%7D%5Csum%5En%7Bi%3D1%7Dlnp%28x_i%7C%5Ctheta%29%20%3D%20%5Csum%5En%7Bi%3D1%7D%5Cnabla_%5Ctheta%20lnp%28x_i%7C%5Ctheta%29%20%3D%200%0A)

到此,我们通过选择的一组样本数据,将通过以下方式解决我们的问题:

  • 利用一组简单的方程分析
  • 使用不同方程式的迭代算法,用数值表示
  • 当模型数据收敛于一个局部最优解时,近似拿到结果

综合上述三部分,我们尝试利用最大似然法求多元高斯分布的多维数据高斯分布 - 图29参数,对两个参数求偏导

多维数据高斯分布 - 图30%7Dlnp(xi%7C%5Cmu%2C%20%5CSigma)%20%3D%200%0A#card=math&code=%5Csum%5En%7Bi%20%3D%201%7D%5Cnabla_%7B%28%5Cmu%2C%5CSigma%29%7Dlnp%28x_i%7C%5Cmu%2C%20%5CSigma%29%20%3D%200%0A)

首先对多维数据高斯分布 - 图31采取梯度下降(求导)

多维数据高斯分布 - 图32%5Ed%7C%5CSigma%7D%7Dexp%5CBig(-%5Cfrac%7B1%7D%7B2%7D(xi%20-%20%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%5CBig)%20%5C%5C%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7D-%5Cfrac%7B1%7D%7B2%7Dln(2%5Cpi)%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D(x_i-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5Csum%5En%7Bi%3D1%7D%5Cnabla%7B%5Cmu%7D%5CBig(x_i%5ET%5CSigma%5E%7B-1%7Dx_i%20-%202%5Cmu%5ET%5CSigma%5E%7B-1%7Dx_i%20%2B%20%5Cmu%5ET%5CSigma%5E%7B-1%7D%5Cmu)%20%5C%5C%20%3D%20-%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D(xi%20-%20%5Cmu)%0A#card=math&code=0%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7Dln%5Cfrac%7B1%7D%7B%5Csqrt%7B%282%5Cpi%29%5Ed%7C%5CSigma%7D%7Dexp%5CBig%28-%5Cfrac%7B1%7D%7B2%7D%28x_i%20-%20%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%5CBig%29%20%5C%5C%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7D-%5Cfrac%7B1%7D%7B2%7Dln%282%5Cpi%29%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D%28x_i-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5Csum%5En%7Bi%3D1%7D%5Cnabla%7B%5Cmu%7D%5CBig%28x_i%5ET%5CSigma%5E%7B-1%7Dx_i%20-%202%5Cmu%5ET%5CSigma%5E%7B-1%7Dx_i%20%2B%20%5Cmu%5ET%5CSigma%5E%7B-1%7D%5Cmu%29%20%5C%5C%20%3D%20-%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%0A)

此时多维数据高斯分布 - 图33为已知,因此:

多维数据高斯分布 - 图34%3D0%20%5Cqquad%20%5CRightarrow%20%5Cqquad%20%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7Dxi%0A#card=math&code=%5Csum%5En%7Bi%3D1%7D%28xi%20-%20%5Cmu%29%3D0%20%5Cqquad%20%5CRightarrow%20%5Cqquad%20%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En_%7Bi%3D1%7Dx_i%0A)

然后对多维数据高斯分布 - 图35采取梯度下降(求导)

多维数据高斯分布 - 图36%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D(xi%20-%20%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%20%5C%5C%20%3D%20-%5Cfrac%7Bn%7D%7B2%7D%5Cnabla%7B%5CSigma%7Dln%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7Dtrace%5CBig(%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D(x_i%20-%20%5Cmu)(x_i%20-%20%5Cmu)%5ET%5CBig)%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-1%7D%20%2B%20%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-2%7D%5Csum%5En%7Bi%3D1%7D(xi%20-%20%5Cmu)(x_i%20-%20%5Cmu)%5ET%0A#card=math&code=0%20%3D%20%5Cnabla%7B%5CSigma%7D%5Csum%5En%7Bi%3D1%7D%20-%20%5Cfrac%7B1%7D%7B2%7Dln%282%5Cpi%29%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D%28x_i%20-%20%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%20%5C%5C%20%3D%20-%5Cfrac%7Bn%7D%7B2%7D%5Cnabla%7B%5CSigma%7Dln%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7Dtrace%5CBig%28%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%28x_i%20-%20%5Cmu%29%5ET%5CBig%29%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-1%7D%20%2B%20%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-2%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%28x_i%20-%20%5Cmu%29%5ET%0A)

多维数据高斯分布 - 图37代入,求多维数据高斯分布 - 图38得到:

多维数据高斯分布 - 图39(xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D)%5ET%0A#card=math&code=%5Chat%7B%5CSigma%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7D%28xi-%5Chat%7B%5Cmu%7D%7BML%7D%29%28xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D%29%5ET%0A)

因此,当我们拥有一组d维的样本数据多维数据高斯分布 - 图40时,同时我们假定它们是高斯分布,那么这组数据的均值(期望)和协方差矩阵的最大似然值分别为:

多维数据高斯分布 - 图41(xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D)%5ET%0A#card=math&code=%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7Dxi%2C%20%5Cqquad%20%5Chat%7B%5CSigma%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7D%28x_i-%5Chat%7B%5Cmu%7D%7BML%7D%29%28xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D%29%5ET%0A)

References: