无向图模型带隐变量的无向图模型强化学习 无向图模型 Model: z(w)是归一化因子,E是能量函数Example: 前者来自模型,后者来自数据随机梯度下降example: 带隐变量的无向图模型 model: 两边同时求导(1)代入(2)得可以使用MLE或者EM求解 强化学习 状态空间STATE: 动作空间ACTION:策略Policy: 环境动力学模型:一条运动轨迹: 目标函数: