回归
从四个部分来思考一个多元的高斯分布(例如一个d维高斯分布)
- 第一部分:存在
, 并且
,其中
为平均向量,
为Covariance matrix
- 第二部分:一个i.i.d - Independent and identically distributed的高斯模型
- 第三部分:最大似然估计 - Maximum likelihood
- 第四部分:保留未定义
第一部分
多维数据高斯分布密度函数为
%20%3A%3D%20%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%5Cfrac%7Bd%7D%7B2%7D%5Csqrt%7Bdet(%5CSigma)%7D%7Dexp(-%5Cfrac%7B1%7D%7B2%7D(x-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x-%5Cmu))%0A#card=math&code=p%28x%7C%5Cmu%2C%20%5CSigma%29%20%3A%3D%20%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%5Cfrac%7Bd%7D%7B2%7D%5Csqrt%7Bdet%28%5CSigma%29%7D%7Dexp%28-%5Cfrac%7B1%7D%7B2%7D%28x-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x-%5Cmu%29%29%0A)
其中,
为数据均值(期望)
中心矩为:
dx%20%3D%20%5Cmu%2C%0A#card=math&code=%5Cmathbb%7BE%7D%5Bx%5D%20%3D%20%5Cint_%7B%5Cmathbb%7BR%5Ed%7D%7Dxp%28x%7C%5Cmu%2C%20%5CSigma%29dx%20%3D%20%5Cmu%2C%0A)
%20%3D%20%5Cmathbb%7BE%7D%5B(x%20-%20%5Cmathbb%7BE%7D%5Bx%5D)(x%20-%20%5Cmathbb%7BE%7D%5Bx%5D)%5ET%5D%20%3D%20%5Cmathbb%7BE%7D%5Bxx%5ET%5D%20-%20%5Cmathbb%7BE%7D%5Bx%5D%5Cmathbb%7BE%7D%5Bx%5D%5ET%20%3D%20%5CSigma.%0A#card=math&code=Cov%28x%29%20%3D%20%5Cmathbb%7BE%7D%5B%28x%20-%20%5Cmathbb%7BE%7D%5Bx%5D%29%28x%20-%20%5Cmathbb%7BE%7D%5Bx%5D%29%5ET%5D%20%3D%20%5Cmathbb%7BE%7D%5Bxx%5ET%5D%20-%20%5Cmathbb%7BE%7D%5Bx%5D%5Cmathbb%7BE%7D%5Bx%5D%5ET%20%3D%20%5CSigma.%0A)
第二部分
概率模型
- 一个概率模型是一组概率分布的数据,
#card=math&code=p%28x%7C%5Ctheta%29)
- 选择一个分布族
#card=math&code=p%28%C2%B7%29),
基于高斯分布来进行数据建模,即%2C%20%5Ctheta%20%3D%20%5Cleft%5C%7B%20%5Cmu%2C%20%5CSigma%20%5Cright%5C%7D#card=math&code=p%28x%7C%5Ctheta%29%2C%20%5Ctheta%20%3D%20%5Cleft%5C%7B%20%5Cmu%2C%20%5CSigma%20%5Cright%5C%7D)
i.i.d假设
假定数据满足具有独立的分布性,且具有相同的分布,即独立同分布,在概率统计理论里,指各事件独立,同时满足同一个概率分布,在此:
%2C%20%20i%20%3D%201%2C…%2C%20n%0A#card=math&code=x_i%20%5Csim%20p%28x%7C%5Ctheta%29%2C%20%20i%20%3D%201%2C…%2C%20n%0A)
将密度函数记为#card=math&code=p%28x%7C%5Ctheta%29), 因此联合概率为,其实就是我们的似然函数:
%20%3D%20%5Cprod%7Bi%3D1%7D%5E%7Bn%7Dp(x_i%7C%5Ctheta)%0A#card=math&code=p%28x_1%2C%20…%2C%20x_n%7C%5Ctheta%29%20%3D%20%5Cprod%7Bi%3D1%7D%5E%7Bn%7Dp%28x_i%7C%5Ctheta%29%0A)
第三部分
最大似然法
现在需要找出模型参数,由于我们的数据已知,因此可以考虑使用最大似然估计法来找出这个参数,最大似然估计是通过已知数据的结果信息,用以反推导致该结果最大概率出现的模型参数值。在此可以表示为:
%0A#card=math&code=%5Chat%7B%5Ctheta%7D_%7BML%7D%20%3A%3D%20arg%20max%20%5Cquad%20p%28x_1%2C%20…%2C%20x_n%7C%5Ctheta%29%0A)
为我们要求的值,即最大似然量,能使我们的似然方程达到最大值,这个结果能够根据我们选择的分布族最好的解释数据。
最大似然方程
要得出这个结果,我们遵循最大似然准则,表示函数最大值的最优性准则,即梯度(导数)为零的点,记作:
%20%3D%200%0A#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%200%0A)
简单的说,最大值即峰值。
对数技巧
单独计算%20%3D%200#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28xi%7C%5Ctheta%29%20%3D%200)是一个复杂的过程,对此我们利用对数的性质,在实数域中,定义域为
#card=math&code=%280%2C%20%2B%5Cinfty%29)区间中为单调递增,即在单调递增。并且由于取对数,不会改变函数的单调性,即不改变最大或者最小值的位置,因此我们求解时,可以转化成求似然方程的对数方程:
%20%3D%20%5Csum%7Bi%7Dlnf(f_i)%0A#card=math&code=ln%28%5Cprod_if_i%29%20%3D%20%5Csum%7Bi%7Dlnf%28f_i%29%0A)
%20%5Cneq%20max%20%5Cquad%20g(y)%20%5Cquad%20%5Cquad#card=math&code=max%20%5Cquad%20lng%28y%29%20%5Cneq%20max%20%5Cquad%20g%28y%29%20%5Cquad%20%5Cquad)最大值改变
%20%3D%20argmax%20%5Cquad%20g(y)%20%5Cquad%20%5Cquad#card=math&code=argmax%20%5Cquad%20lng%28y%29%20%3D%20argmax%20%5Cquad%20g%28y%29%20%5Cquad%20%5Cquad)极值的位置不变
因此我们可以将转化为:
%20%3D%20argmaxln%5CBig(%5Cprod%5En%7Bi%3D1%7Dp(x_i%7C%5Ctheta)%5CBig)%20%3D%20argmax%5Csum%5En%7Bi%3D1%7Dlnp(xi%7C%5Ctheta)%0A#card=math&code=%5Chat%7B%5Ctheta%7D%7BML%7D%20%3D%20argmax%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%20argmaxln%5CBig%28%5Cprod%5En%7Bi%3D1%7Dp%28xi%7C%5Ctheta%29%5CBig%29%20%3D%20argmax%5Csum%5En%7Bi%3D1%7Dlnp%28x_i%7C%5Ctheta%29%0A)
为了找到,因此转换求梯度(导数)方程为:
%20%3D%20%5Cnabla%7B%5Ctheta%7D%5Csum%5En%7Bi%3D1%7Dlnp(xi%7C%5Ctheta)%20%3D%20%5Csum%5En%7Bi%3D1%7D%5Cnabla%5Ctheta%20lnp(x_i%7C%5Ctheta)%20%3D%200%0A#card=math&code=%5Cnabla%7B%5Ctheta%7D%5Cprod%5En%7Bi%3D1%7Dp%28x_i%7C%5Ctheta%29%20%3D%20%5Cnabla%7B%5Ctheta%7D%5Csum%5En%7Bi%3D1%7Dlnp%28x_i%7C%5Ctheta%29%20%3D%20%5Csum%5En%7Bi%3D1%7D%5Cnabla_%5Ctheta%20lnp%28x_i%7C%5Ctheta%29%20%3D%200%0A)
到此,我们通过选择的一组样本数据,将通过以下方式解决我们的问题:
- 利用一组简单的方程分析
- 使用不同方程式的迭代算法,用数值表示
- 当模型数据收敛于一个局部最优解时,近似拿到结果
综合上述三部分,我们尝试利用最大似然法求多元高斯分布的参数,对两个参数求偏导
%7Dlnp(xi%7C%5Cmu%2C%20%5CSigma)%20%3D%200%0A#card=math&code=%5Csum%5En%7Bi%20%3D%201%7D%5Cnabla_%7B%28%5Cmu%2C%5CSigma%29%7Dlnp%28x_i%7C%5Cmu%2C%20%5CSigma%29%20%3D%200%0A)
首先对采取梯度下降(求导)
%5Ed%7C%5CSigma%7D%7Dexp%5CBig(-%5Cfrac%7B1%7D%7B2%7D(xi%20-%20%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%5CBig)%20%5C%5C%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7D-%5Cfrac%7B1%7D%7B2%7Dln(2%5Cpi)%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D(x_i-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5Csum%5En%7Bi%3D1%7D%5Cnabla%7B%5Cmu%7D%5CBig(x_i%5ET%5CSigma%5E%7B-1%7Dx_i%20-%202%5Cmu%5ET%5CSigma%5E%7B-1%7Dx_i%20%2B%20%5Cmu%5ET%5CSigma%5E%7B-1%7D%5Cmu)%20%5C%5C%20%3D%20-%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D(xi%20-%20%5Cmu)%0A#card=math&code=0%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7Dln%5Cfrac%7B1%7D%7B%5Csqrt%7B%282%5Cpi%29%5Ed%7C%5CSigma%7D%7Dexp%5CBig%28-%5Cfrac%7B1%7D%7B2%7D%28x_i%20-%20%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%5CBig%29%20%5C%5C%20%3D%20%5Cnabla%7B%5Cmu%7D%5Csum%5En%7Bi%3D1%7D-%5Cfrac%7B1%7D%7B2%7Dln%282%5Cpi%29%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D%28x_i-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5Csum%5En%7Bi%3D1%7D%5Cnabla%7B%5Cmu%7D%5CBig%28x_i%5ET%5CSigma%5E%7B-1%7Dx_i%20-%202%5Cmu%5ET%5CSigma%5E%7B-1%7Dx_i%20%2B%20%5Cmu%5ET%5CSigma%5E%7B-1%7D%5Cmu%29%20%5C%5C%20%3D%20-%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%0A)
此时为已知,因此:
%3D0%20%5Cqquad%20%5CRightarrow%20%5Cqquad%20%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7Dxi%0A#card=math&code=%5Csum%5En%7Bi%3D1%7D%28xi%20-%20%5Cmu%29%3D0%20%5Cqquad%20%5CRightarrow%20%5Cqquad%20%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En_%7Bi%3D1%7Dx_i%0A)
然后对采取梯度下降(求导)
%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D(xi%20-%20%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x_i%20-%20%5Cmu)%20%5C%5C%20%3D%20-%5Cfrac%7Bn%7D%7B2%7D%5Cnabla%7B%5CSigma%7Dln%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7Dtrace%5CBig(%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D(x_i%20-%20%5Cmu)(x_i%20-%20%5Cmu)%5ET%5CBig)%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-1%7D%20%2B%20%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-2%7D%5Csum%5En%7Bi%3D1%7D(xi%20-%20%5Cmu)(x_i%20-%20%5Cmu)%5ET%0A#card=math&code=0%20%3D%20%5Cnabla%7B%5CSigma%7D%5Csum%5En%7Bi%3D1%7D%20-%20%5Cfrac%7B1%7D%7B2%7Dln%282%5Cpi%29%5Ed%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7D%28x_i%20-%20%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x_i%20-%20%5Cmu%29%20%5C%5C%20%3D%20-%5Cfrac%7Bn%7D%7B2%7D%5Cnabla%7B%5CSigma%7Dln%7C%5CSigma%7C%20-%20%5Cfrac%7B1%7D%7B2%7Dtrace%5CBig%28%5CSigma%5E%7B-1%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%28x_i%20-%20%5Cmu%29%5ET%5CBig%29%20%5C%5C%20%3D%20-%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-1%7D%20%2B%20%5Cfrac%7B1%7D%7B2%7D%5CSigma%5E%7B-2%7D%5Csum%5En%7Bi%3D1%7D%28x_i%20-%20%5Cmu%29%28x_i%20-%20%5Cmu%29%5ET%0A)
将代入,求
得到:
(xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D)%5ET%0A#card=math&code=%5Chat%7B%5CSigma%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7D%28xi-%5Chat%7B%5Cmu%7D%7BML%7D%29%28xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D%29%5ET%0A)
因此,当我们拥有一组d维的样本数据时,同时我们假定它们是高斯分布,那么这组数据的均值(期望)和协方差矩阵的最大似然值分别为:
(xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D)%5ET%0A#card=math&code=%5Chat%7B%5Cmu%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7Dxi%2C%20%5Cqquad%20%5Chat%7B%5CSigma%7D%7BML%7D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%5Csum%5En%7Bi%3D1%7D%28x_i-%5Chat%7B%5Cmu%7D%7BML%7D%29%28xi%20-%20%5Chat%7B%5Cmu%7D%7BML%7D%29%5ET%0A)
References: