Factor analysis
的约束条件（Restriction）">11.1 $11 因子分析 - 图1$ 的约束条件（Restriction）
11.2 多重高斯模型（Gaussians ）的边界（Marginal）和条件（Conditional）
11.3 因子分析模型（Factor analysis model）
11.4 针对因子分析模型（factor analysis）的期望最大化算法（EM）

Factor analysis

如果有一个从多个高斯混合模型（a mixture of several Gaussians）而来的数据集 $11 因子分析 - 图2$ %7D%20%5Cin%20R%5En#card=math&code=x%5E%7B%28i%29%7D%20%5Cin%20R%5En&height=16&width=53) ，那么就可以用期望最大化算法（EM algorithm）来对这个混合模型（mixture model）进行拟合。这种情况下，对于有充足数据（sufficient data）的问题，我们通常假设可以从数据中识别出多个高斯模型结构（multiple-Gaussian structure）。例如，如果我们的训练样本集合规模（training set size） $11 因子分析 - 图3$ 远远大于（significantly larger than）数据的维度（dimension） $11 因子分析 - 图4$ ，就符合这种情况。

然后来考虑一下反过来的情况，也就是 $11 因子分析 - 图5$ 远远大于 $11 因子分析 - 图6$ ，即 $11 因子分析 - 图7$ 。在这样的问题中，就可能用单独一个高斯模型来对数据建模都很难，更不用说多个高斯模型的混合模型了。由于 $11 因子分析 - 图8$ 个数据点所张成（span）的只是一个 $11 因子分析 - 图9$ 维空间 $11 因子分析 - 图10$ 的低维度子空间（low-dimensional subspace），如果用高斯模型（Gaussian）对数据进行建模，然后还是用常规的最大似然估计（usual maximum likelihood estimators）来估计（estimate）平均值（mean）和方差（covariance），得到的则是：

$11 因子分析 - 图11$ %7D%20%5C%5C%0A%26%5CSigma%20%3D%20%5Cfrac%201m%5Csum%7Bi%3D1%7D%5Em%20(x%5E%7B(i)%7D-%5Cmu)(x%5E%7B(i)%7D-%5Cmu)%5ET%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%26%5Cmu%20%3D%20%5Cfrac%201m%5Csum%7Bi%3D1%7D%5Em%20x%5E%7B%28i%29%7D%20%5C%5C%0A%26%5CSigma%20%3D%20%5Cfrac%201m%5Csum_%7Bi%3D1%7D%5Em%20%28x%5E%7B%28i%29%7D-%5Cmu%29%28x%5E%7B%28i%29%7D-%5Cmu%29%5ET%0A%5Cend%7Baligned%7D%0A&height=82&width=189)

我们会发现这里的 $11 因子分析 - 图12$ 是一个奇异（singular）矩阵。这也就意味着其逆矩阵 $11 因子分析 - 图13$ 不存在，而 $11 因子分析 - 图14$ 。但这几个变量都还是需要的，要用来计算一个多元高斯分布（multivariate Gaussian distribution）的常规密度函数（usual density）。还可以用另外一种方法来讲述清楚这个难题，也就是对参数（parameters）的最大似然估计（maximum likelihood estimates）会产生一个高斯分布（Gaussian），其概率分布在由样本数据 $11 因子分析 - 图15$ 所张成的仿射空间（affine space）中，对应着一个奇异的协方差矩阵（singular covariance matrix）。

1 这是一个点集，对于某些 $11 因子分析 - 图16$ ，此集合中的点 $11 因子分析 - 图17$ 都满足 $11 因子分析 - 图18$ %7D#card=math&code=x%20%3D%20%5Csum%7Bi%3D1%7D%5Em%20%5Calpha_i%20x%5E%7B%28i%29%7D&height=40&width=81), 因此 ![](https://g.yuque.com/gr/latex?%5Csum%7Bi%3D1%7D%5Em%20%5Calpha1%20%3D%201#card=math&code=%5Csum%7Bi%3D1%7D%5Em%20%5Calpha_1%20%3D%201&height=40&width=61)。

通常情况下，除非 $11 因子分析 - 图19$ 比 $11 因子分析 - 图20$ 大出相当多（some reasonable amount），否则最大似然估计（maximum likelihood estimates）得到的均值（mean）和方差（covariance）都会很差（quite poor）。尽管如此，我们还是希望能用已有的数据，拟合出一个合理（reasonable）的高斯模型（Gaussian model），而且还希望能识别出数据中的某些有意义的协方差结构（covariance structure）。那这可怎么办呢？

在接下来的这一部分内容里，我们首先回顾一下对 $11 因子分析 - 图21$ 的两个可能的约束（possible restrictions），这两个约束条件能让我们使用小规模数据来拟合 $11 因子分析 - 图22$ ，但都不能就我们的问题给出让人满意的解（satisfactory solution）。然后接下来我们要讨论一下高斯模型的一些特点，这些后面会用得上，具体来说也就是如何找到高斯模型的边界和条件分布。最后，我们会讲一下因子分析模型（factor analysis model），以及对应的期望最大化算法（EM algorithm）。

11.1 $11 因子分析 - 图23$ 的约束条件（Restriction）

如果我们没有充足的数据来拟合一个完整的协方差矩阵（covariance matrix），就可以对矩阵空间 $11 因子分析 - 图24$ 给出某些约束条件（restrictions）。例如，我们可以选择去拟合一个对角（diagonal）的协方差矩阵 $11 因子分析 - 图25$ 。这样，读者很容易就能验证这样的一个协方差矩阵的最大似然估计（maximum likelihood estimate）可以由对角矩阵（diagonal matrix） $11 因子分析 - 图26$ 满足：

$11 因子分析 - 图27$ %7D-%5Cmuj)%5E2%0A#card=math&code=%5CSigma%7Bjj%7D%20%3D%20%5Cfrac%201m%20%5Csum_%7Bi%3D1%7D%5Em%20%28x_j%5E%7B%28i%29%7D-%5Cmu_j%29%5E2%0A&height=40&width=142)

因此， $11 因子分析 - 图28$ 就是对数据中第 $11 因子分析 - 图29$ 个坐标位置的方差值的经验估计（empirical estimate）。

回忆一下，高斯模型的密度的形状是椭圆形的。对角线矩阵 $11 因子分析 - 图30$ 对应的就是椭圆长轴（major axes）对齐（axis- aligned）的高斯模型。

有时候，我们还要对这个协方差矩阵（covariance matrix）给出进一步的约束，不仅设为对角的（major axes），还要求所有对角元素（diagonal entries）都相等。这时候，就有 $11 因子分析 - 图31$ ，其中 $11 因子分析 - 图32$ 是我们控制的参数。对这个 $11 因子分析 - 图33$ 的最大似然估计则为：

$11 因子分析 - 图34$ %7D-%5Cmuj)%5E2%0A#card=math&code=%5Csigma%5E2%20%3D%20%5Cfrac%201%7Bmn%7D%20%5Csum%7Bj%3D1%7D%5En%5Csum_%7Bi%3D1%7D%5Em%20%28x_j%5E%7B%28i%29%7D-%5Cmu_j%29%5E2%0A&height=41&width=167)

这种模型对应的是密度函数为圆形轮廓的高斯模型（在二维空间也就是平面中是圆形，在更高维度当中就是球（spheres）或者超球体（hyperspheres））。

如果我们对数据要拟合一个完整的，不受约束的（unconstrained）协方差矩阵 $11 因子分析 - 图35$ ，就必须满足 $11 因子分析 - 图36$ ，这样才使得对 $11 因子分析 - 图37$ 的最大似然估计不是奇异矩阵（singular matrix）。在上面提到的两个约束条件之下，只要 $11 因子分析 - 图38$ ，我们就能获得非奇异的（non-singular） $11 因子分析 - 图39$ 。

然而，将 $11 因子分析 - 图40$ 限定为对角矩阵，也就意味着对数据中不同坐标（coordinates）的 $11 因子分析 - 图41$ 建模都将是不相关的（uncorrelated），且互相独立（independent）。通常，还是从样本数据里面获得某些有趣的相关信息结构比较好。如果使用上面对 $11 因子分析 - 图42$ 的某一种约束，就可能没办法获取这些信息了。在本章讲义里面，我们会提到因子分析模型（factor analysis model），这个模型使用的参数比对角矩阵 $11 因子分析 - 图43$ 更多，而且能从数据中获得某些相关性信息（captures some correlations），但也不能对完整的协方差矩阵（full covariance matrix）进行拟合。

11.2 多重高斯模型（Gaussians ）的边界（Marginal）和条件（Conditional）

在讲解因子分析（factor analysis）之前，我们要先说一下一个联合多元高斯分布（joint multivariate Gaussian distribution）下的随机变量（random variables）的条件（conditional）和边界（marginal）分布（distributions）。

假如我们有一个值为向量的随机变量（vector-valued random variable）：

$11 因子分析 - 图44$

其中 $11 因子分析 - 图45$ ，因此 $11 因子分析 - 图46$ 。设 $11 因子分析 - 图47$ #card=math&code=x%5Csim%20N%28%5Cmu%2C%5CSigma%29&height=16&width=72)，则这两个参数为：

$11 因子分析 - 图48$

其中， $11 因子分析 - 图49$ ，以此类推。由于协方差矩阵（covariance matrices）是对称的（symmetric），所以有 $11 因子分析 - 图50$ 。

基于我们的假设， $11 因子分析 - 图51$ 和 $11 因子分析 - 图52$ 是联合多元高斯分布(jointly multivariate Gaussian)。那么 $11 因子分析 - 图53$ 的边界分布是什么？不难看出 $11 因子分析 - 图54$ 的期望 $11 因子分析 - 图55$ ，而协方差 $11 因子分析 - 图56$ %20%3D%20E%5B(x1%20-%20%5Cmu_1)(x_1%20-%20%5Cmu_1)%5D%20%3D%20%5CSigma%7B11%7D#card=math&code=Cov%28x1%29%20%3D%20E%5B%28x_1%20-%20%5Cmu_1%29%28x_1%20-%20%5Cmu_1%29%5D%20%3D%20%5CSigma%7B11%7D&height=16&width=233)。接下来为了验证后面这一项成立，要用 $11 因子分析 - 图57$ 和 $11 因子分析 - 图58$ 的联合方差的概念：

$11 因子分析 - 图59$ %20%26%3D%20%5CSigma%20%5C%5C%0A%26%3D%20%5Cbegin%7Bbmatrix%7D%0A%5CSigma%7B11%7D%20%26%20%5CSigma%7B12%7D%20%5C%5C%20%5CSigma%7B21%7D%20%26%20%5CSigma%7B22%7D%0A%5Cend%7Bbmatrix%7D%20%5C%5C%0A%26%3D%20E%5B(x-%5Cmu)(x-%5Cmu)%5ET%5D%20%5C%5C%0A%26%3D%20E%5Cbegin%7Bbmatrix%7D%0A%5Cbegin%7Bpmatrix%7Dx1-%5Cmu_1%20%5C%5C%20x_2-%5Cmu_2%5Cend%7Bpmatrix%7D%20%20%26%20%0A%5Cbegin%7Bpmatrix%7Dx_1-%5Cmu_1%20%5C%5C%20x_2-%5Cmu_2%5Cend%7Bpmatrix%7D%5ET%20%0A%5Cend%7Bbmatrix%7D%20%5C%5C%0A%26%3D%20%5Cbegin%7Bbmatrix%7D(x_1-%5Cmu_1)(x_1-%5Cmu_1)%5ET%20%26%20(x_1-%5Cmu_1)(x_2-%5Cmu_2)%5ET%5C%5C%0A(x_2-%5Cmu_2)(x_1-%5Cmu_1)%5ET%20%26%20(x_2-%5Cmu_2)(x_2-%5Cmu_2)%5ET%0A%5Cend%7Bbmatrix%7D%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0ACov%28x%29%20%26%3D%20%5CSigma%20%5C%5C%0A%26%3D%20%5Cbegin%7Bbmatrix%7D%0A%5CSigma%7B11%7D%20%26%20%5CSigma%7B12%7D%20%5C%5C%20%5CSigma%7B21%7D%20%26%20%5CSigma_%7B22%7D%0A%5Cend%7Bbmatrix%7D%20%5C%5C%0A%26%3D%20E%5B%28x-%5Cmu%29%28x-%5Cmu%29%5ET%5D%20%5C%5C%0A%26%3D%20E%5Cbegin%7Bbmatrix%7D%0A%5Cbegin%7Bpmatrix%7Dx_1-%5Cmu_1%20%5C%5C%20x_2-%5Cmu_2%5Cend%7Bpmatrix%7D%20%20%26%20%0A%5Cbegin%7Bpmatrix%7Dx_1-%5Cmu_1%20%5C%5C%20x_2-%5Cmu_2%5Cend%7Bpmatrix%7D%5ET%20%0A%5Cend%7Bbmatrix%7D%20%5C%5C%0A%26%3D%20%5Cbegin%7Bbmatrix%7D%28x_1-%5Cmu_1%29%28x_1-%5Cmu_1%29%5ET%20%26%20%28x_1-%5Cmu_1%29%28x_2-%5Cmu_2%29%5ET%5C%5C%0A%28x_2-%5Cmu_2%29%28x_1-%5Cmu_1%29%5ET%20%26%20%28x_2-%5Cmu_2%29%28x_2-%5Cmu_2%29%5ET%0A%5Cend%7Bbmatrix%7D%0A%5Cend%7Baligned%7D%0A&height=152&width=333)

在上面的最后两行中，匹配（Matching）矩阵的左上方子阵（upper-left sub blocks），就可以得到结果了。

高斯分布的边界分布（marginal distributions）本身也是高斯分布，所以我们就可以给出一个正态分布 $11 因子分析 - 图60$ #card=math&code=x1%5Csim%20N%28%5Cmu%2C%5CSigma_%7B11%7D%29&height=17&width=87) 来作为 $11 因子分析 - 图61$ 的边界分布（marginal distributions）。

此外，我们还可以提出另一个问题，给定 $11 因子分析 - 图62$ 的情况下 $11 因子分析 - 图63$ 的条件分布是什么呢？通过参考多元高斯分布的定义，就能得到这个条件分布 $11 因子分析 - 图64$ #card=math&code=x1%7Cx_2%20%5Csim%20N%20%28%5Cmu%7B1%7C2%7D%2C%20%5CSigma_%7B1%7C2%7D%29&height=18&width=123)为：

$11 因子分析 - 图65$ %5Cqquad%26(1)%20%5C%5C%0A%26%5CSigma%7B1%7C2%7D%20%3D%20%5CSigma%7B11%7D%20-%20%5CSigma%7B12%7D%5CSigma%7B22%7D%5E%7B-1%7D%5CSigma%7B21%7D%26(2)%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%26%5Cmu%7B1%7C2%7D%20%3D%20%5Cmu1%20%2B%20%5CSigma%7B12%7D%5CSigma%7B22%7D%5E%7B-1%7D%28x_2-%5Cmu_2%29%5Cqquad%26%281%29%20%5C%5C%0A%26%5CSigma%7B1%7C2%7D%20%3D%20%5CSigma%7B11%7D%20-%20%5CSigma%7B12%7D%5CSigma%7B22%7D%5E%7B-1%7D%5CSigma%7B21%7D%26%282%29%0A%5Cend%7Baligned%7D%0A&height=40&width=246)

在下一节对因子分析模型（factor analysis model）的讲解中，上面这些公式就很有用了，可以帮助寻找高斯分布的条件和边界分布（conditional and marginal distributions）。

11.3 因子分析模型（Factor analysis model）

在因子分析模型（factor analysis model）中，我们制定在 $11 因子分析 - 图66$ #card=math&code=%28x%2C%20z%29&height=16&width=30) 上的一个联合分布，如下所示，其中 $11 因子分析 - 图67$ 是一个潜在随机变量（latent random variable）：

$11 因子分析 - 图68$ %20%5C%5C%0Ax%7Cz%20%26%5Csim%20N(%5Cmu%2B%5CLambda%20z%2C%5CPsi)%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0Az%20%26%5Csim%20N%280%2CI%29%20%5C%5C%0Ax%7Cz%20%26%5Csim%20N%28%5Cmu%2B%5CLambda%20z%2C%5CPsi%29%0A%5Cend%7Baligned%7D%0A&height=36&width=119)

上面的式子中，我们这个模型中的参数是向量 $11 因子分析 - 图69$ ，矩阵 $11 因子分析 - 图70$ ，以及一个对角矩阵 $11 因子分析 - 图71$ 。 $11 因子分析 - 图72$ 的值通常都选择比 $11 因子分析 - 图73$ 小一点的。

这样，我们就设想每个数据点 $11 因子分析 - 图74$ %7D#card=math&code=x%5E%7B%28i%29%7D&height=16&width=20) 都是通过在一个 $11 因子分析 - 图75$ 维度的多元高斯分布 $11 因子分析 - 图76$ %7D#card=math&code=z%5E%7B%28i%29%7D&height=16&width=18) 中取样获得的。然后，通过计算 $11 因子分析 - 图77$ %7D#card=math&code=%5Cmu%2B%5CLambda%20z%5E%7B%28i%29%7D&height=19&width=52)，就可以映射到实数域 $11 因子分析 - 图78$ 中的一个 $11 因子分析 - 图79$ 维仿射空间（k-dimensional affine space），在 $11 因子分析 - 图80$ %7D#card=math&code=%5Cmu%20%2B%20%5CLambda%20z%5E%7B%28i%29%7D&height=19&width=52) 上加上协方差 $11 因子分析 - 图81$ 作为噪音，就得到了 $11 因子分析 - 图82$ %7D#card=math&code=x%5E%7B%28i%29%7D&height=16&width=20)。

反过来，咱们也就可以来定义因子分析模型（factor analysis model），使用下面的设定：

$11 因子分析 - 图83$ %20%5C%5C%0A%5Cepsilon%20%26%5Csim%20N(0%2C%5CPsi)%20%5C%5C%0Ax%20%26%3D%20%5Cmu%20%2B%20%5CLambda%20z%20%2B%20%5Cepsilon%20%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0Az%20%26%5Csim%20N%280%2CI%29%20%5C%5C%0A%5Cepsilon%20%26%5Csim%20N%280%2C%5CPsi%29%20%5C%5C%0Ax%20%26%3D%20%5Cmu%20%2B%20%5CLambda%20z%20%2B%20%5Cepsilon%20%0A%5Cend%7Baligned%7D%0A&height=53&width=92)

其中的 $11 因子分析 - 图84$ 和 $11 因子分析 - 图85$ 是互相独立的。

然后咱们来确切地看看这个模型定义的分布（distribution our）。其中，随机变量 $11 因子分析 - 图86$ 和 $11 因子分析 - 图87$ 有一个联合高斯分布（joint Gaussian distribution）：

$11 因子分析 - 图88$ %0A#card=math&code=%5Cbegin%7Bbmatrix%7D%0Az%5C%5Cx%0A%5Cend%7Bbmatrix%7D%5Csim%20N%28%5Cmu_%7Bzx%7D%2C%5CSigma%29%0A&height=36&width=102)

然后咱们要找到 $11 因子分析 - 图89$ 和 $11 因子分析 - 图90$ 。

我们知道 $11 因子分析 - 图91$ 的期望 $11 因子分析 - 图92$ ，这是因为 $11 因子分析 - 图93$ 服从的是均值为 $11 因子分析 - 图94$ 的正态分布 $11 因子分析 - 图95$ #card=math&code=z%5Csim%20N%280%2CI%29&height=16&width=66)。此外我们还知道：

$11 因子分析 - 图96$

综合以上这些条件，就得到了：

$11 因子分析 - 图97$

下一步就是要找出 $11 因子分析 - 图98$ ，我们需要计算出 $11 因子分析 - 图99$ (z%20-%20E%5Bz%5D)%5ET%5D#card=math&code=%5CSigma%7Bzz%7D%20%3D%20E%5B%28z%20-%20E%5Bz%5D%29%28z%20-%20E%5Bz%5D%29%5ET%5D&height=18&width=179)（矩阵 $11 因子分析 - 图100$ 的左上部分（upper-left block）），![](https://g.yuque.com/gr/latex?%5CSigma%7Bzx%7D%20%3D%20E%5B(z%20-%20E%5Bz%5D)(x%20-%20E%5Bx%5D)%5ET%5D#card=math&code=%5CSigma%7Bzx%7D%20%3D%20E%5B%28z%20-%20E%5Bz%5D%29%28x%20-%20E%5Bx%5D%29%5ET%5D&height=18&width=183)（右上部分(upper-right block)），以及![](https://g.yuque.com/gr/latex?%5CSigma%7Bxx%7D%3DE%5B(x%20-%20E%5Bx%5D)(x%20-%20E%5Bx%5D)%5ET%5D#card=math&code=%5CSigma_%7Bxx%7D%3DE%5B%28x%20-%20E%5Bx%5D%29%28x%20-%20E%5Bx%5D%29%5ET%5D&height=18&width=187) （右下部分(lower-right block)）。

由于 $11 因子分析 - 图101$ 是一个正态分布 $11 因子分析 - 图102$ #card=math&code=z%20%5Csim%20N%20%280%2C%20I%29&height=16&width=66)，很容易就能知道 $11 因子分析 - 图103$ %20%3D%20I#card=math&code=%5CSigma_%7Bzz%7D%20%3D%20Cov%28z%29%20%3D%20I&height=16&width=103)。另外：

$11 因子分析 - 图104$ (x%20-%20E%5Bx%5D)%5ET%5D%20%26%3D%20E%5Bz(%5Cmu%2B%5CLambda%20z%2B%5Cepsilon-%5Cmu)%5ET%5D%20%5C%5C%0A%26%3D%20E%5Bzz%5ET%5D%5CLambda%5ET%2BE%5Bz%5Cepsilon%5ET%5D%20%5C%5C%0A%26%3D%20%5CLambda%5ET%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0AE%5B%28z%20-%20E%5Bz%5D%29%28x%20-%20E%5Bx%5D%29%5ET%5D%20%26%3D%20E%5Bz%28%5Cmu%2B%5CLambda%20z%2B%5Cepsilon-%5Cmu%29%5ET%5D%20%5C%5C%0A%26%3D%20E%5Bzz%5ET%5D%5CLambda%5ET%2BE%5Bz%5Cepsilon%5ET%5D%20%5C%5C%0A%26%3D%20%5CLambda%5ET%0A%5Cend%7Baligned%7D%0A&height=57&width=296)

在上面的最后一步中，使用到了结论 $11 因子分析 - 图105$ #card=math&code=E%5Bzz%5ET%5D%20%3D%20Cov%28z%29&height=18&width=97)（因为 $11 因子分析 - 图106$ 的均值为 $11 因子分析 - 图107$ ），而且 $11 因子分析 - 图108$ ）（因为 $11 因子分析 - 图109$ 和 $11 因子分析 - 图110$ 相互独立，因此乘积（product）的期望（expectation）等于期望的乘积）。

同样的方法，我们可以用下面的方法来找到 $11 因子分析 - 图111$ ：

$11 因子分析 - 图112$ (x%20-%20E%5Bx%5D)%5ET%5D%20%26%3D%20E%5B%5Cmu%2B%5CLambda%20z%2B%5Cepsilon-%5Cmu)(%5Cmu%2B%5CLambda%20z%2B%5Cepsilon-%5Cmu)%5ET%5D%20%5C%5C%0A%26%3D%20E%5B%5CLambda%20zz%5ET%5CLambda%5ET%2B%5Cepsilon%20z%5ET%5CLambda%5ET%2B%5CLambda%20z%5Cepsilon%5ET%2B%5Cepsilon%5Cepsilon%5ET%5D%20%5C%5C%0A%26%3D%20%5CLambda%20E%5Bzz%5ET%5D%5CLambda%5ET%2BE%5B%5Cepsilon%5Cepsilon%5ET%5D%20%5C%5C%0A%26%3D%20%5CLambda%5CLambda%5ET%2B%5CPsi%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0AE%5B%28x%20-%20E%5Bx%5D%29%28x%20-%20E%5Bx%5D%29%5ET%5D%20%26%3D%20E%5B%5Cmu%2B%5CLambda%20z%2B%5Cepsilon-%5Cmu%29%28%5Cmu%2B%5CLambda%20z%2B%5Cepsilon-%5Cmu%29%5ET%5D%20%5C%5C%0A%26%3D%20E%5B%5CLambda%20zz%5ET%5CLambda%5ET%2B%5Cepsilon%20z%5ET%5CLambda%5ET%2B%5CLambda%20z%5Cepsilon%5ET%2B%5Cepsilon%5Cepsilon%5ET%5D%20%5C%5C%0A%26%3D%20%5CLambda%20E%5Bzz%5ET%5D%5CLambda%5ET%2BE%5B%5Cepsilon%5Cepsilon%5ET%5D%20%5C%5C%0A%26%3D%20%5CLambda%5CLambda%5ET%2B%5CPsi%0A%5Cend%7Baligned%7D%0A&height=77&width=386)

把上面这些综合到一起，就得到了：

$11 因子分析 - 图113$ %0A#card=math&code=%5Cbegin%7Bbmatrix%7D%0Az%5C%5Cx%0A%5Cend%7Bbmatrix%7D%5Csim%20%0A%5Cbegin%7Bpmatrix%7D%0A%5Cbegin%7Bbmatrix%7D%0A%5Cvec%7B0%7D%5C%5C%20%5Cmu%0A%5Cend%7Bbmatrix%7D%2C%5Cbegin%7Bbmatrix%7D%0AI%26%5CLambda%5ET%5C%5C%20%5CLambda%26%5CLambda%5CLambda%5ET%2B%5CPsi%0A%5Cend%7Bbmatrix%7D%0A%5Cend%7Bpmatrix%7D%5Cqquad%283%29%0A&height=37&width=246)

因此，我们还能发现 $11 因子分析 - 图114$ 的边界分布（marginal distribution）为 $11 因子分析 - 图115$ #card=math&code=x%20%5Csim%20N%28%5Cmu%2C%5CLambda%5CLambda%5ET%20%2B%5CPsi%29&height=18&width=116)。所以，给定一个训练样本集合 $11 因子分析 - 图116$ %7D%3B%20i%20%3D%201%2C%20…%2C%20m%5C%7D#card=math&code=%5C%7Bx%5E%7B%28i%29%7D%3B%20i%20%3D%201%2C%20…%2C%20m%5C%7D&height=19&width=111)，参数（parameters）的最大似然估计函数的对数函数（log likelihood），就可以写为：

$11 因子分析 - 图117$ %3Dlog%5Cprod%7Bi%3D1%7D%5Em%5Cfrac%7B1%7D%0A%7B(2%5Cpi)%5E%7Bn%2F2%7D%7C%5CLambda%5CLambda%5ET%2B%5CPsi%7C%5E%7B1%2F2%7D%7D%0Aexp(-%5Cfrac%2012(x%5E%7B(i)%7D-%5Cmu)%5ET(%5CLambda%5CLambda%5ET%2B%5CPsi)%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu))%0A#card=math&code=l%28%5Cmu%2C%5CLambda%2C%5CPsi%29%3Dlog%5Cprod%7Bi%3D1%7D%5Em%5Cfrac%7B1%7D%0A%7B%282%5Cpi%29%5E%7Bn%2F2%7D%7C%5CLambda%5CLambda%5ET%2B%5CPsi%7C%5E%7B1%2F2%7D%7D%0Aexp%28-%5Cfrac%2012%28x%5E%7B%28i%29%7D-%5Cmu%29%5ET%28%5CLambda%5CLambda%5ET%2B%5CPsi%29%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu%29%29%0A&height=41&width=485)

为了进行最大似然估计，我们就要最大化上面这个关于参数的函数。但确切地对上面这个方程式进行最大化，是很难的，不信你自己试试哈，而且我们都知道没有算法能够以封闭形式（closed-form）来实现这个最大化。所以，我们就改用期望最大化算法（EM algorithm）。下一节里面，咱们就来推导一下针对因子分析模型（factor analysis）的期望最大化算法（EM）。

11.4 针对因子分析模型（factor analysis）的期望最大化算法（EM）

$11 因子分析 - 图118$ 步骤的推导很简单。只需要计算出来 $11 因子分析 - 图119$ %7D)%20%3D%20p(z%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%3B%20%5Cmu%2C%20%5CLambda%2C%20%5CPsi)#card=math&code=Qi%28z%5E%7B%28i%29%7D%29%20%3D%20p%28z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%3B%20%5Cmu%2C%20%5CLambda%2C%20%5CPsi%29&height=19&width=168)。把等式 $11 因子分析 - 图120$ #card=math&code=%283%29&height=16&width=17) 当中给出的分布代入到方程 $11 因子分析 - 图121$ #card=math&code=%281-2%29&height=16&width=41)，来找出一个高斯分布的条件分布，我们就能发现 $11 因子分析 - 图122$ %7D%7Cx%5E%7B(i)%7D%3B%20%5Cmu%2C%20%5CLambda%2C%20%5CPsi%20%5Csim%20N%20(%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%20%2C%20%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%20)#card=math&code=z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%3B%20%5Cmu%2C%20%5CLambda%2C%20%5CPsi%20%5Csim%20N%20%28%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%20%2C%20%5CSigma_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%20%29&height=22&width=219)，其中：

$11 因子分析 - 图123$ %7D%7Cx%5E%7B(i)%7D%7D%26%3D%5CLambda%5ET(%5CLambda%5CLambda%5ET%2B%5CPsi)%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu)%20%5C%5C%0A%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%26%3DI-%5CLambda%5ET(%5CLambda%5CLambda%5ET%2B%5CPsi)%5E%7B-1%7D%5CLambda%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%26%3D%5CLambda%5ET%28%5CLambda%5CLambda%5ET%2B%5CPsi%29%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu%29%20%5C%5C%0A%5CSigma_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%26%3DI-%5CLambda%5ET%28%5CLambda%5CLambda%5ET%2B%5CPsi%29%5E%7B-1%7D%5CLambda%0A%5Cend%7Baligned%7D%0A&height=45&width=216)

所以，通过对 $11 因子分析 - 图124$ %7D%7Cx%5E%7B(i)%7D%7D#card=math&code=%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D&height=15&width=41) 和 ![](https://g.yuque.com/gr/latex?%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D#card=math&code=%5CSigma_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D&height=18&width=43),进行这样的定义，就能得到：

$11 因子分析 - 图125$ %7D)%3D%5Cfrac%7B1%7D%0A%7B(2%5Cpi)%5E%7Bk%2F2%7D%7C%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%7C%5E%7B1%2F2%7D%7D%0Aexp(-%5Cfrac%2012(z%5E%7B(i)%7D-%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D)%5ET%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5E%7B-1%7D(z%5E%7B(i)%7D-%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D))%0A#card=math&code=Qi%28z%5E%7B%28i%29%7D%29%3D%5Cfrac%7B1%7D%0A%7B%282%5Cpi%29%5E%7Bk%2F2%7D%7C%5CSigma%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%7C%5E%7B1%2F2%7D%7D%0Aexp%28-%5Cfrac%2012%28z%5E%7B%28i%29%7D-%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%29%5ET%5CSigma%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5E%7B-1%7D%28z%5E%7B%28i%29%7D-%5Cmu_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%29%29%0A&height=41&width=454)

接下来就是 $11 因子分析 - 图126$ 步骤了。这里需要去最大化下面这个关于参数 $11 因子分析 - 图127$ , $11 因子分析 - 图128$ 的函数值：

$11 因子分析 - 图129$ %7D%7DQi(z%5E%7B(i)%7D)log%5Cfrac%7Bp(x%5E%7B(i)%7D%2Cz%5E%7B(i)%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi)%7D%7BQ_i(z%5E%7B(i)%7D)%7Ddz%5E%7B(i)%7D%5Cqquad(4)%0A#card=math&code=%5Csum%7Bi%3D1%7D%5Em%5Cint_%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29log%5Cfrac%7Bp%28x%5E%7B%28i%29%7D%2Cz%5E%7B%28i%29%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi%29%7D%7BQ_i%28z%5E%7B%28i%29%7D%29%7Ddz%5E%7B%28i%29%7D%5Cqquad%284%29%0A&height=41&width=291)

我们在本文中仅仅对 $11 因子分析 - 图130$ 进行优化，关于 $11 因子分析 - 图131$ 和 $11 因子分析 - 图132$ 的更新就作为练习留给读者自己进行推导了。
把等式 $11 因子分析 - 图133$ #card=math&code=%284%29&height=16&width=17) 简化成下面的形式：

$11 因子分析 - 图134$ %7D%7DQi(z%5E%7B(i)%7D)%5Blog%20p(x%5E%7B(i)%7D%7Cz%5E%7B(i)%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi)%2Blog%20p(z%5E%7B(i)%7D)-log%20Q_i(z%5E%7B(i)%7D)%5Ddz%5E%7B(i)%7D%20%26(5)%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E%7Bz%5E%7B(i)%7D%5Csim%20Q_i%7D%5Blog%20p(x%5E%7B(i)%7D%7Cz%5E%7B(i)%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi)%2Blog%20p(z%5E%7B(i)%7D)-log%20Q_i(z%5E%7B(i)%7D)%5D%20%26(6)%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%5Csum%7Bi%3D1%7D%5Em%26%5Cint%7Bz%5E%7B%28i%29%7D%7DQ_i%28z%5E%7B%28i%29%7D%29%5Blog%20p%28x%5E%7B%28i%29%7D%7Cz%5E%7B%28i%29%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi%29%2Blog%20p%28z%5E%7B%28i%29%7D%29-log%20Q_i%28z%5E%7B%28i%29%7D%29%5Ddz%5E%7B%28i%29%7D%20%26%285%29%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E_%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Blog%20p%28x%5E%7B%28i%29%7D%7Cz%5E%7B%28i%29%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi%29%2Blog%20p%28z%5E%7B%28i%29%7D%29-log%20Q_i%28z%5E%7B%28i%29%7D%29%5D%20%26%286%29%0A%5Cend%7Baligned%7D%0A&height=82&width=444)

上面的等式中， $11 因子分析 - 图135$ %7D%20%5Csim%20Q_i%E2%80%9D#card=math&code=%E2%80%9Cz%5E%7B%28i%29%7D%20%5Csim%20Q_i%E2%80%9D&height=18&width=65) 这个下标（subscript），表示的意思是这个期望是关于从 $11 因子分析 - 图136$ 中取得的 $11 因子分析 - 图137$ %7D#card=math&code=z%5E%7B%28i%29%7D&height=16&width=18) 的。在后续的推导过程中，如果没有歧义的情况下，我们就会把这个下标省略掉。删除掉这些不依赖参数的项目后，我们就发现只需要最大化：

$11 因子分析 - 图138$ %7D%7Cz%5E%7B(i)%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi)%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E%5Blog%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%7Bn%2F2%7D%7C%5CPsi%7C%5E%7B1%2F2%7D%7D%0Aexp(-%5Cfrac%2012(x%5E%7B(i)%7D-%5Cmu-%5CLambda%20z%5E%7B(i)%7D)%5ET%5CPsi%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu-%5CLambda%20z%5E%7B(i)%7D))%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E%5B-%5Cfrac%2012log%7C%5CPsi%7C-%5Cfrac%20n2log(2%5Cpi)-%5Cfrac%2012(x%5E%7B(i)%7D-%5Cmu-%5CLambda%20z%5E%7B(i)%7D)%5ET%5CPsi%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu-%5CLambda%20z%5E%7B(i)%7D)%5D%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%5Csum%7Bi%3D1%7D%5Em%26E%5Blog%20p%28x%5E%7B%28i%29%7D%7Cz%5E%7B%28i%29%7D%3B%5Cmu%2C%5CLambda%2C%5CPsi%29%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E%5Blog%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%7Bn%2F2%7D%7C%5CPsi%7C%5E%7B1%2F2%7D%7D%0Aexp%28-%5Cfrac%2012%28x%5E%7B%28i%29%7D-%5Cmu-%5CLambda%20z%5E%7B%28i%29%7D%29%5ET%5CPsi%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu-%5CLambda%20z%5E%7B%28i%29%7D%29%29%5D%20%5C%5C%0A%26%3D%5Csum_%7Bi%3D1%7D%5Em%20E%5B-%5Cfrac%2012log%7C%5CPsi%7C-%5Cfrac%20n2log%282%5Cpi%29-%5Cfrac%2012%28x%5E%7B%28i%29%7D-%5Cmu-%5CLambda%20z%5E%7B%28i%29%7D%29%5ET%5CPsi%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu-%5CLambda%20z%5E%7B%28i%29%7D%29%5D%0A%5Cend%7Baligned%7D%0A&height=124&width=470)

我们先对上面的函数进行关于 $11 因子分析 - 图139$ 的最大化。可见只有最后的一项依赖 $11 因子分析 - 图140$ 。求导数，同时利用下面几个结论： $11 因子分析 - 图141$ %2C%20tr%20AB%20%3D%20tr%20BA%2C%20%5Cnabla_A%20tr%20ABA%5ET%20C%20%3D%20CAB%20%2B%20C%5ET%20AB#card=math&code=tr%20a%20%3D%20a%20%28for%5Cquad%20a%20%5Cin%20R%29%2C%20tr%20AB%20%3D%20tr%20BA%2C%20%5Cnabla_A%20tr%20ABA%5ET%20C%20%3D%20CAB%20%2B%20C%5ET%20AB&height=18&width=399)，就能得到：

$11 因子分析 - 图142$ %7D-%5Cmu-%5CLambda%20z%5E%7B(i)%7D)%5ET%5CPsi%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu-%5CLambda%20z%5E%7B(i)%7D)%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20%5Cnabla%5CLambda%20E%5B-tr%5Cfrac%2012%20z%5E%7B(i)T%7D%5CLambda%5ET%5CPsi%5E%7B-1%7D%5CLambda%20z%5E%7B(i)%7D%2Btr%20z%5E%7B(i)T%7D%5CLambda%5ET%5CPsi%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu)%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20%5Cnabla%5CLambda%20E%5B-tr%5Cfrac%2012%20%5CLambda%5ET%5CPsi%5E%7B-1%7D%5CLambda%20z%5E%7B(i)%7Dz%5E%7B(i)T%7D%2Btr%20%5CLambda%5ET%5CPsi%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu)z%5E%7B(i)T%7D%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E%5B-%5CPsi%5E%7B-1%7D%5CLambda%20z%5E%7B(i)%7Dz%5E%7B(i)T%7D%2B%5CPsi%5E%7B-1%7D(x%5E%7B(i)%7D-%5Cmu)z%5E%7B(i)T%7D%5D%20%5C%5C%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%5Cnabla%5CLambda%26%5Csum%7Bi%3D1%7D%5Em%20-E%5B%5Cfrac%2012%28x%5E%7B%28i%29%7D-%5Cmu-%5CLambda%20z%5E%7B%28i%29%7D%29%5ET%5CPsi%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu-%5CLambda%20z%5E%7B%28i%29%7D%29%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20%5Cnabla%5CLambda%20E%5B-tr%5Cfrac%2012%20z%5E%7B%28i%29T%7D%5CLambda%5ET%5CPsi%5E%7B-1%7D%5CLambda%20z%5E%7B%28i%29%7D%2Btr%20z%5E%7B%28i%29T%7D%5CLambda%5ET%5CPsi%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu%29%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20%5Cnabla%5CLambda%20E%5B-tr%5Cfrac%2012%20%5CLambda%5ET%5CPsi%5E%7B-1%7D%5CLambda%20z%5E%7B%28i%29%7Dz%5E%7B%28i%29T%7D%2Btr%20%5CLambda%5ET%5CPsi%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu%29z%5E%7B%28i%29T%7D%5D%20%5C%5C%0A%26%3D%5Csum%7Bi%3D1%7D%5Em%20E%5B-%5CPsi%5E%7B-1%7D%5CLambda%20z%5E%7B%28i%29%7Dz%5E%7B%28i%29T%7D%2B%5CPsi%5E%7B-1%7D%28x%5E%7B%28i%29%7D-%5Cmu%29z%5E%7B%28i%29T%7D%5D%20%5C%5C%0A%5Cend%7Baligned%7D%0A&height=164&width=378)

设置导数为 $11 因子分析 - 图143$ ，然后简化，就能得到：

$11 因子分析 - 图144$ %7D%5Csim%20Qi%7D%5Bz%5E%7B(i)%7Dz%5E%7B(i)T%7D%5D%3D%0A%5Csum%7Bi%3D1%7D%5Em(x%5E%7B(i)%7D-%5Cmu)E%7Bz%5E%7B(i)%7D%5Csim%20Q_i%7D%5Bz%5E%7B(i)T%7D%5D%0A#card=math&code=%5Csum%7Bi%3D1%7D%5Em%5CLambda%20E%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Bz%5E%7B%28i%29%7Dz%5E%7B%28i%29T%7D%5D%3D%0A%5Csum%7Bi%3D1%7D%5Em%28x%5E%7B%28i%29%7D-%5Cmu%29E_%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Bz%5E%7B%28i%29T%7D%5D%0A&height=40&width=296)

接下来，求解 $11 因子分析 - 图145$ ，就能得到：

$11 因子分析 - 图146$ %7D-%5Cmu)E%7Bz%5E%7B(i)%7D%5Csim%20Q_i%7D%5Bz%5E%7B(i)T%7D%5D)(%5Csum%7Bi%3D1%7D%5Em%20E%7Bz%5E%7B(i)%7D%5Csim%20Q_i%7D%5Bz%5E%7B(i)%7Dz%5E%7B(i)T%7D%5D)%5E%7B-1%7D%5Cqquad(7)%0A#card=math&code=%5CLambda%3D%28%5Csum%7Bi%3D1%7D%5Em%28x%5E%7B%28i%29%7D-%5Cmu%29E%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Bz%5E%7B%28i%29T%7D%5D%29%28%5Csum%7Bi%3D1%7D%5Em%20E_%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Bz%5E%7B%28i%29%7Dz%5E%7B%28i%29T%7D%5D%29%5E%7B-1%7D%5Cqquad%287%29%0A&height=40&width=375)

有一个很有意思的地方需要注意，上面这个等式和用最小二乘线性回归（least squares regression）推出的正则方程（normal equation）有密切关系：

$11 因子分析 - 图147$ (X%5ETX)%5E%7B-1%7D%E2%80%9D%0A#card=math&code=%E2%80%9C%5Ctheta%5ET%3D%28y%5ETX%29%28X%5ETX%29%5E%7B-1%7D%E2%80%9D%0A&height=18&width=138)

与之类似，这里的 $11 因子分析 - 图148$ 是一个关于 $11 因子分析 - 图149$ （以及噪音 noise）的线性方程。考虑在 $11 因子分析 - 图150$ 步骤中对 $11 因子分析 - 图151$ 已经给出了猜测，接下来就可以尝试来对与 $11 因子分析 - 图152$ 和 $11 因子分析 - 图153$ 相关的未知线性量（unknown linearity） $11 因子分析 - 图154$ 进行估计。接下来不出意料，我们就会得到某种类似正则方程的结果。然而，这个还是和利用对 $11 因子分析 - 图155$ 的“最佳猜测（best guesses）” 进行最小二乘算法有一个很大的区别的；这一点我们很快就会看到了。

为了完成 $11 因子分析 - 图156$ 步骤的更新，接下来我们要解出等式 $11 因子分析 - 图157$ #card=math&code=%287%29&height=16&width=17) 当中的期望值（values of the expectations）。由于我们定义 $11 因子分析 - 图158$ 是均值（mean）为 $11 因子分析 - 图159$ %7D%7Cx%5E%7B(i)%7D%7D#card=math&code=%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D&height=15&width=41)，协方差（covariance）为 ![](https://g.yuque.com/gr/latex?%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D#card=math&code=%5CSigma_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D&height=18&width=43) 的一个高斯分布，所以很容易能得到：

$11 因子分析 - 图160$ %7D%5Csim%20Qi%7D%5Bz%5E%7B(i)T%7D%5D%26%3D%20%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5ET%20%5C%5C%0AE%7Bz%5E%7B(i)%7D%5Csim%20Q_i%7D%5Bz%5E%7B(i)%7Dz%5E%7B(i)T%7D%5D%26%3D%20%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5ET%2B%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0AE%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Bz%5E%7B%28i%29T%7D%5D%26%3D%20%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5ET%20%5C%5C%0AE%7Bz%5E%7B%28i%29%7D%5Csim%20Q_i%7D%5Bz%5E%7B%28i%29%7Dz%5E%7B%28i%29T%7D%5D%26%3D%20%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5ET%2B%5CSigma%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%0A%5Cend%7Baligned%7D%0A&height=50&width=260)

上面第二个等式的推导依赖于下面这个事实：对于一个随机变量 $11 因子分析 - 图161$ ，协方差 $11 因子分析 - 图162$ %20%3D%20E%5BY%20Y%5ET%20%5D-E%5BY%5DE%5BY%5D%5ET#card=math&code=Cov%28Y%20%29%20%3D%20E%5BY%20Y%5ET%20%5D-E%5BY%5DE%5BY%5D%5ET&height=18&width=190) ，所以 $11 因子分析 - 图163$ #card=math&code=E%5BY%20Y%5ET%20%5D%20%3D%20E%5BY%20%5DE%5BY%20%5D%5ET%20%2BCov%28Y%29&height=18&width=190)。把这个代入到等式 $11 因子分析 - 图164$ #card=math&code=%287%29&height=16&width=17)，就得到了 $11 因子分析 - 图165$ 步骤中 $11 因子分析 - 图166$ 的更新规则：

$11 因子分析 - 图167$ %7D-%5Cmu)%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5ET)(%5Csum%7Bi%3D1%7D%5Em%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%20%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5ET%20%2B%20%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D)%5E%7B-1%7D%5Cqquad(8)%0A#card=math&code=%5CLambda%3D%28%5Csum%7Bi%3D1%7D%5Em%28x%5E%7B%28i%29%7D-%5Cmu%29%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5ET%29%28%5Csum%7Bi%3D1%7D%5Em%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%20%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5ET%20%2B%20%5CSigma_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%29%5E%7B-1%7D%5Cqquad%288%29%0A&height=40&width=387)

上面这个等式中，要特别注意等号右边这一侧的 $11 因子分析 - 图168$ %7D%7Cx%5E%7B(i)%7D%7D#card=math&code=%5CSigma%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D&height=18&width=43)。这是一个根据 $11 因子分析 - 图169$ %7D#card=math&code=z%5E%7B%28i%29%7D&height=16&width=18) 给出的 $11 因子分析 - 图170$ %7D#card=math&code=x%5E%7B%28i%29%7D&height=16&width=20) 后验分布（posterior distribution） $11 因子分析 - 图171$ %7D%7Cx%5E%7B(i)%7D)#card=math&code=p%28z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%29&height=19&width=60) 的协方差，而在 $11 因子分析 - 图172$ 步骤中必须要考虑到在这个后验分布中 $11 因子分析 - 图173$ %7D#card=math&code=z%5E%7B%28i%29%7D&height=16&width=18) 的不确定性（uncertainty）。推导 $11 因子分析 - 图174$ 算法的一个常见错误就是在 $11 因子分析 - 图175$ 步骤进行假设，只需要算出潜在随机变量（latent random variable） $11 因子分析 - 图176$ 的期望 $11 因子分析 - 图177$ ，然后把这个值放到 $11 因子分析 - 图178$ 步骤当中 $11 因子分析 - 图179$ 出现的每个地方来进行优化（optimization）。当然，这能解决简单问题，例如高斯混合模型（mixture of Gaussians），在因子模型的推导过程中，就同时需要 $11 因子分析 - 图180$ 和 $11 因子分析 - 图181$ ；而我们已经知道， $11 因子分析 - 图182$ 和 $11 因子分析 - 图183$ 随着 ![](https://g.yuque.com/gr/latex?%5CSigma%7Bz%7Cx%7D#card=math&code=%5CSigma_%7Bz%7Cx%7D&height=17&width=24) 而变化。因此，在 $11 因子分析 - 图184$ 步骤就必须要考虑到后验分布（posterior distribution） $11 因子分析 - 图185$ %7D%7Cx%5E%7B(i)%7D)#card=math&code=p%28z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%29&height=19&width=60)中 $11 因子分析 - 图186$ 的协方差（covariance）。

最后，我们还可以发现，在 $11 因子分析 - 图187$ 步骤对参数 $11 因子分析 - 图188$ 和 $11 因子分析 - 图189$ 的优化。不难发现其中的 $11 因子分析 - 图190$ 为：

$11 因子分析 - 图191$ %7D%0A#card=math&code=%5Cmu%3D%5Cfrac%201m%5Csum_%7Bi%3D1%7D%5Em%20x%5E%7B%28i%29%7D%0A&height=40&width=86)

由于这个值不随着参数的变换而改变（也就是说，和 $11 因子分析 - 图192$ 的更新不同，这里等式右侧不依赖 $11 因子分析 - 图193$ %7D)%20%3D%20p(z%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%3B%20%5Cmu%2C%20%5CLambda%2C%20%5CPsi)#card=math&code=Q_i%28z%5E%7B%28i%29%7D%29%20%3D%20p%28z%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%3B%20%5Cmu%2C%20%5CLambda%2C%20%5CPsi%29&height=19&width=168)，这个 $11 因子分析 - 图194$ %7D)#card=math&code=Qi%28z%5E%7B%28i%29%7D%29&height=19&width=44) 是依赖参数的），这个只需要计算一次就可以，在算法运行过程中，也不需要进一步更新。类似地，对角矩阵 $11 因子分析 - 图195$ 也可以通过计算下面这个式子来获得：

$11 因子分析 - 图196$ %7Dx%5E%7B(i)T%7D-x%5E%7B(i)%7D%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5ET%5CLambda%5ET%20%20-%20%5CLambda%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7Dx%5E%7B(i)T%7D%2B%5CLambda(%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5Cmu%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D%5ET%2B%5CSigma%7Bz%5E%7B(i)%7D%7Cx%5E%7B(i)%7D%7D)%5CLambda%5ET%0A#card=math&code=%5CPhi%3D%5Cfrac%201m%5Csum%7Bi%3D1%7D%5Em%20x%5E%7B%28i%29%7Dx%5E%7B%28i%29T%7D-x%5E%7B%28i%29%7D%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5ET%5CLambda%5ET%20%20-%20%5CLambda%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7Dx%5E%7B%28i%29T%7D%2B%5CLambda%28%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5Cmu%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%5ET%2B%5CSigma_%7Bz%5E%7B%28i%29%7D%7Cx%5E%7B%28i%29%7D%7D%29%5CLambda%5ET%0A&height=40&width=502)

然后只需要设 $11 因子分析 - 图197$ （也就是说，设 $11 因子分析 - 图198$ 为一个仅仅包含矩阵 $11 因子分析 - 图199$ 中对角线元素的对角矩阵）。

11 因子分析

Factor analysis

11.1 的约束条件（Restriction）

11.2 多重高斯模型（Gaussians ）的边界（Marginal）和条件（Conditional）

11.3 因子分析模型（Factor analysis model）

11.4 针对因子分析模型（factor analysis）的期望最大化算法（EM）

11.1 $11 因子分析 - 图23$ 的约束条件（Restriction）