贝尔曼方程的矩阵形式

Class 13 Homework - 图1
Class 13 Homework - 图2
Class 13 Homework - 图3解得Class 13 Homework - 图4
时间复杂度Class 13 Homework - 图5
该方程也可以用动态规划求解

动作价值函数Q

这里引入一个Q函数,叫做动态价值函数,其定义在某一个状态采取某一个动作所获得的期望回报
Class 13 Homework - 图6
显然根据概率图模型可得:
Class 13 Homework - 图7

Q函数的递推公式

Class 13 Homework - 图8
Class 13 Homework - 图9
Class 13 Homework - 图10
Class 13 Homework - 图11
Class 13 Homework - 图12
由上面两个式子可以建立V和Q的关联
Class 13 Homework - 图13
Class 13 Homework - 图14