我：我终于从概率图里爬出来啦！书：你还有推断没学。我：超！

为什么我们需要变分推断

假设在一个贝叶斯模型中，变分推断 - 图1 为一组观测变量，变分推断 - 图2 为一组隐变量。我们的推断问题为计算条件概率密度变分推断 - 图3 ，我们根据贝叶斯公式，可以将其写为：
变分推断 - 图4
在很多情况下，分母的积分是算不出来的（intractable），要么没有闭式解，要么是指数级的运算。

变分推断在干嘛

一句话概括：变分推断是寻找一个简单的分布变分推断 - 图5 用来近似我们要求的这个PDF 变分推断 - 图6 。这个推断问题就转换为一个泛函优化问题：
变分推断 - 图7
但是实际上就是因为变分推断 - 图8 难算才需要找一个变分推断 - 图9 ，这不是又绕回来了吗。
那应该怎么做呢？

优化问题

我们在EM算法中已经证明，变分推断 - 图10