MainSubjects - 多维数据高斯分布 - 《Machine Learning》

第一部分
第二部分
- i.i.d假设
第三部分

回归
从四个部分来思考一个多元的高斯分布（例如一个d维高斯分布）

第一部分：存在 $多维数据高斯分布 - 图1$ , 并且 $多维数据高斯分布 - 图2$ ，其中 $多维数据高斯分布 - 图3$ 为平均向量， $多维数据高斯分布 - 图4$ 为Covariance matrix
第二部分：一个i.i.d - Independent and identically distributed的高斯模型
第三部分：最大似然估计 - Maximum likelihood
第四部分：保留未定义

第一部分

多维数据高斯分布密度函数为

$多维数据高斯分布 - 图5$ %20%3A%3D%20%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%5Cfrac%7Bd%7D%7B2%7D%5Csqrt%7Bdet(%5CSigma)%7D%7Dexp(-%5Cfrac%7B1%7D%7B2%7D(x-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x-%5Cmu))%0A#card=math&code=p%28x%7C%5Cmu%2C%20%5CSigma%29%20%3A%3D%20%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%5Cfrac%7Bd%7D%7B2%7D%5Csqrt%7Bdet%28%5CSigma%29%7D%7Dexp%28-%5Cfrac%7B1%7D%7B2%7D%28x-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x-%5Cmu%29%29%0A)

其中 $多维数据高斯分布 - 图6$ , $多维数据高斯分布 - 图7$ 为数据均值（期望）

中心矩为：

$多维数据高斯分布 - 图8$ dx%20%3D%20%5Cmu%2C%0A#card=math&code=%5Cmathbb%7BE%7D%5Bx%5D%20%3D%20%5Cint_%7B%5Cmathbb%7BR%5Ed%7D%7Dxp%28x%7C%5Cmu%2C%20%5CSigma%29dx%20%3D%20%5Cmu%2C%0A)

$多维数据高斯分布 - 图9$ %20%3D%20%5Cmathbb%7BE%7D%5B(x%20-%20%5Cmathbb%7BE%7D%5Bx%5D)(x%20-%20%5Cmathbb%7BE%7D%5Bx%5D)%5ET%5D%20%3D%20%5Cmathbb%7BE%7D%5Bxx%5ET%5D%20-%20%5Cmathbb%7BE%7D%5Bx%5D%5Cmathbb%7BE%7D%5Bx%5D%5ET%20%3D%20%5CSigma.%0A#card=math&code=Cov%28x%29%20%3D%20%5Cmathbb%7BE%7D%5B%28x%20-%20%5Cmathbb%7BE%7D%5Bx%5D%29%28x%20-%20%5Cmathbb%7BE%7D%5Bx%5D%29%5ET%5D%20%3D%20%5Cmathbb%7BE%7D%5Bxx%5ET%5D%20-%20%5Cmathbb%7BE%7D%5Bx%5D%5Cmathbb%7BE%7D%5Bx%5D%5ET%20%3D%20%5CSigma.%0A)

第二部分

概率模型

一个概率模型是一组概率分布的数据， $多维数据高斯分布 - 图10$ #card=math&code=p%28x%7C%5Ctheta%29)
选择一个分布族 $多维数据高斯分布 - 图11$ #card=math&code=p%28%C2%B7%29),

基于高斯分布来进行数据建模，即 $多维数据高斯分布 - 图12$ %2C%20%5Ctheta%20%3D%20%5Cleft%5C%7B%20%5Cmu%2C%20%5CSigma%20%5Cright%5C%7D#card=math&code=p%28x%7C%5Ctheta%29%2C%20%5Ctheta%20%3D%20%5Cleft%5C%7B%20%5Cmu%2C%20%5CSigma%20%5Cright%5C%7D)

i.i.d假设

假定数据满足具有独立的分布性，且具有相同的分布，即独立同分布，在概率统计理论里，指各事件独立，同时满足同一个概率分布，在此：

$多维数据高斯分布 - 图13$ %2C%20%20i%20%3D%201%2C…%2C%20n%0A#card=math&code=x_i%20%5Csim%20p%28x%7C%5Ctheta%29%2C%20%20i%20%3D%201%2C…%2C%20n%0A)

将密度函数记为 $多维数据高斯分布 - 图14$ #card=math&code=p%28x%7C%5Ctheta%29), 因此联合概率为，其实就是我们的似然函数：

$多维数据高斯分布 - 图15$ %20%3D%20%5Cprod%7Bi%3D1%7D%5E%7Bn%7Dp(x_i%7C%5Ctheta)%0A#card=math&code=p%28x_1%2C%20…%2C%20x_n%7C%5Ctheta%29%20%3D%20%5Cprod%7Bi%3D1%7D%5E%7Bn%7Dp%28x_i%7C%5Ctheta%29%0A)

第三部分

最大似然法

现在需要找出模型参数 $多维数据高斯分布 - 图16$ ，由于我们的数据已知，因此可以考虑使用最大似然估计法来找出这个参数，最大似然估计是通过已知数据的结果信息，用以反推导致该结果最大概率出现的模型参数值。在此可以表示为：

$多维数据高斯分布 - 图17$ %0A#card=math&code=%5Chat%7B%5Ctheta%7D_%7BML%7D%20%3A%3D%20arg%20max%20%5Cquad%20p%28x_1%2C%20…%2C%20x_n%7C%5Ctheta%29%0A)

$多维数据高斯分布 - 图18$ 为我们要求的值，即最大似然量，能使我们的似然方程达到最大值，这个结果能够根据我们选择的分布族最好的解释数据。

最大似然方程

要得出这个结果，我们遵循最大似然准则，表示函数最大值的最优性准则，即梯度(导数)为零的点，记作：

$多维数据高斯分布 - 图19$ %20%3D%200%0A#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%200%0A)

简单的说，最大值即峰值。

对数技巧

单独计算 $多维数据高斯分布 - 图20$ %20%3D%200#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28xi%7C%5Ctheta%29%20%3D%200)是一个复杂的过程，对此我们利用对数的性质，在实数域中，定义域为 $多维数据高斯分布 - 图21$ #card=math&code=%280%2C%20%2B%5Cinfty%29)区间中为单调递增，即在![](https://g.yuque.com/gr/latex?%5Cmathbb%7BR%7D%2B#card=math&code=%5Cmathbb%7BR%7D_%2B)单调递增。并且由于取对数，不会改变函数的单调性，即不改变最大或者最小值的位置，因此我们求解时，可以转化成求似然方程的对数方程：

$多维数据高斯分布 - 图22$ %20%3D%20%5Csum%7Bi%7Dlnf(f_i)%0A#card=math&code=ln%28%5Cprod_if_i%29%20%3D%20%5Csum%7Bi%7Dlnf%28f_i%29%0A)

$多维数据高斯分布 - 图23$ %20%5Cneq%20max%20%5Cquad%20g(y)%20%5Cquad%20%5Cquad#card=math&code=max%20%5Cquad%20lng%28y%29%20%5Cneq%20max%20%5Cquad%20g%28y%29%20%5Cquad%20%5Cquad)最大值改变

$多维数据高斯分布 - 图24$ %20%3D%20argmax%20%5Cquad%20g(y)%20%5Cquad%20%5Cquad#card=math&code=argmax%20%5Cquad%20lng%28y%29%20%3D%20argmax%20%5Cquad%20g%28y%29%20%5Cquad%20%5Cquad)极值的位置不变

因此我们可以将 $多维数据高斯分布 - 图25$ 转化为：

$多维数据高斯分布 - 图26$ %20%3D%20argmaxln%5CBig(%5Cprod%5En%7Bi%3D1%7Dp(x_i%7C%5Ctheta)%5CBig)%20%3D%20argmax%5Csum%5En%7Bi%3D1%7Dlnp(xi%7C%5Ctheta)%0A#card=math&code=%5Chat%7B%5Ctheta%7D%7BML%7D%20%3D%20argmax%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%20argmaxln%5CBig%28%5Cprod%5En%7Bi%3D1%7Dp%28xi%7C%5Ctheta%29%5CBig%29%20%3D%20argmax%5Csum%5En%7Bi%3D1%7Dlnp%28x_i%7C%5Ctheta%29%0A)

为了找到 $多维数据高斯分布 - 图27$ ，因此转换求梯度(导数)方程为：

$多维数据高斯分布 - 图28$ %20%3D%20%5Cnabla%7B%5Ctheta%7D%5Csum%5En%7Bi%3D1%7Dlnp(xi%7C%5Ctheta)%20%3D%20%5Csum%5En%7Bi%3D1%7D%5Cnabla%5Ctheta%20lnp(x_i%7C%5Ctheta)%20%3D%200%0A#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%20%5Cnabla%7B%5Ctheta%7D%5Csum%5En%7Bi%3D1%7Dlnp%28x_i%7C%5Ctheta%29%20%3D%20%5Csum%5En%7Bi%3D1%7D%5Cnabla_%5Ctheta%20lnp%28x_i%7C%5Ctheta%29%20%3D%200%0A)

到此，我们通过选择的一组样本数据，将通过以下方式解决我们的问题：

利用一组简单的方程分析
使用不同方程式的迭代算法，用数值表示
当模型数据收敛于一个局部最优解时，近似拿到结果

综合上述三部分，我们尝试利用最大似然法求多元高斯分布的 $多维数据高斯分布 - 图29$ 参数，对两个参数求偏导

$多维数据高斯分布 - 图30$ %7Dlnp(xi%7C%5Cmu%2C%20%5CSigma)%20%3D%200%0A#card=math&code=%5Csum%5En%7Bi%20%3D%201%7D%5Cnabla_%7B%28%5Cmu%2C%5CSigma%29%7Dlnp%28x_i%7C%5Cmu%2C%20%5CSigma%29%20%3D%200%0A)

首先对 $多维数据高斯分布 - 图31$ 采取梯度下降(求导)

$多维数据高斯分布 - 图32$ %5Ed%7C%5CSigma%7D%7Dexp%5CBig(-%5Cfrac%7B1%7D%7B2%7D(xi%20-%20%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%5CBig)%20%5C%5C%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7D-%5Cfrac%7B1%7D%7B2%7Dln(2%5Cpi)%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D(x_i-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5Csum%5En%7Bi%3D1%7D%5Cnabla%7B%5Cmu%7D%5CBig(x_i%5ET%5CSigma%5E%7B-1%7Dx_i%20-%202%5Cmu%5ET%5CSigma%5E%7B-1%7Dx_i%20%2B%20%5Cmu%5ET%5CSigma%5E%7B-1%7D%5Cmu)%20%5C%5C%20%3D%20-%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D(xi%20-%20%5Cmu)%0A#card=math&code=0%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7Dln%5Cfrac%7B1%7D%7B%5Csqrt%7B%282%5Cpi%29%5Ed%7C%5CSigma%7D%7Dexp%5CBig%28-%5Cfrac%7B1%7D%7B2%7D%28x_i%20-%20%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%5CBig%29%20%5C%5C%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7D-%5Cfrac%7B1%7D%7B2%7Dln%282%5Cpi%29%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D%28x_i-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5Csum%5En%7Bi%3D1%7D%5Cnabla%7B%5Cmu%7D%5CBig%28x_i%5ET%5CSigma%5E%7B-1%7Dx_i%20-%202%5Cmu%5ET%5CSigma%5E%7B-1%7Dx_i%20%2B%20%5Cmu%5ET%5CSigma%5E%7B-1%7D%5Cmu%29%20%5C%5C%20%3D%20-%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%0A)

此时 $多维数据高斯分布 - 图33$ 为已知，因此：

$多维数据高斯分布 - 图34$ %3D0%20%5Cqquad%20%5CRightarrow%20%5Cqquad%20%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7Dxi%0A#card=math&code=%5Csum%5En%7Bi%3D1%7D%28xi%20-%20%5Cmu%29%3D0%20%5Cqquad%20%5CRightarrow%20%5Cqquad%20%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En_%7Bi%3D1%7Dx_i%0A)

然后对 $多维数据高斯分布 - 图35$ 采取梯度下降(求导)

$多维数据高斯分布 - 图36$ %5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D(xi%20-%20%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%20%5C%5C%20%3D%20-%5Cfrac%7Bn%7D%7B2%7D%5Cnabla%7B%5CSigma%7Dln%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7Dtrace%5CBig(%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D(x_i%20-%20%5Cmu)(x_i%20-%20%5Cmu)%5ET%5CBig)%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-1%7D%20%2B%20%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-2%7D%5Csum%5En%7Bi%3D1%7D(xi%20-%20%5Cmu)(x_i%20-%20%5Cmu)%5ET%0A#card=math&code=0%20%3D%20%5Cnabla%7B%5CSigma%7D%5Csum%5En%7Bi%3D1%7D%20-%20%5Cfrac%7B1%7D%7B2%7Dln%282%5Cpi%29%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D%28x_i%20-%20%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%20%5C%5C%20%3D%20-%5Cfrac%7Bn%7D%7B2%7D%5Cnabla%7B%5CSigma%7Dln%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7Dtrace%5CBig%28%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%28x_i%20-%20%5Cmu%29%5ET%5CBig%29%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-1%7D%20%2B%20%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-2%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%28x_i%20-%20%5Cmu%29%5ET%0A)

将 $多维数据高斯分布 - 图37$ 代入，求 $多维数据高斯分布 - 图38$ 得到：

$多维数据高斯分布 - 图39$ (xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D)%5ET%0A#card=math&code=%5Chat%7B%5CSigma%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7D%28xi-%5Chat%7B%5Cmu%7D%7BML%7D%29%28xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D%29%5ET%0A)

因此，当我们拥有一组d维的样本数据 $多维数据高斯分布 - 图40$ 时，同时我们假定它们是高斯分布，那么这组数据的均值(期望)和协方差矩阵的最大似然值分别为：

$多维数据高斯分布 - 图41$ (xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D)%5ET%0A#card=math&code=%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7Dxi%2C%20%5Cqquad%20%5Chat%7B%5CSigma%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7D%28x_i-%5Chat%7B%5Cmu%7D%7BML%7D%29%28xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D%29%5ET%0A)

References: