Class 13 Homework

浏览 175 扫码分享 2023-11-22 00:42:41

贝尔曼方程的矩阵形式
动作价值函数Q
- Q函数的递推公式

贝尔曼方程的矩阵形式

Class 13 Homework - 图1
Class 13 Homework - 图2
即 Class 13 Homework - 图3 解得 Class 13 Homework - 图4
时间复杂度 Class 13 Homework - 图5
该方程也可以用动态规划求解

动作价值函数Q

这里引入一个Q函数，叫做动态价值函数，其定义在某一个状态采取某一个动作所获得的期望回报
Class 13 Homework - 图6
显然根据概率图模型可得：
Class 13 Homework - 图7

Q函数的递推公式

Class 13 Homework - 图8
Class 13 Homework - 图9
Class 13 Homework - 图10
Class 13 Homework - 图11
Class 13 Homework - 图12
由上面两个式子可以建立V和Q的关联
Class 13 Homework - 图13
Class 13 Homework - 图14

若有收获，就点个赞吧

让时间为你证明