13周课堂笔记

浏览 114 扫码分享 2023-11-22 00:42:51

马尔科夫决策过程

马尔科夫决策过程

智能体在环境中的一系列决策过程可以表示为一条轨迹即状态、动作、奖励的序列：
13周课堂笔记 - 图2
对强化学习来说数据就是一系列决策历史
13周课堂笔记 - 图3 ，数据集D也叫做经验experience

回报(return)即累计折扣奖励：
13周课堂笔记 - 图4
表示从t时刻起到结束所获得的累积折扣奖励。
回报的期望：
13周课堂笔记 - 图5
13周课堂笔记 - 图6
上面式子的计算需要已知环境动力学模型。

贝尔曼方程

如何判断一个状态好还是不好，可以使用状态价值函数:
13周课堂笔记 - 图7
关于全期望公式： 13周课堂笔记 - 图8
根据全期望公式可知： 13周课堂笔记 - 图9
13周课堂笔记 - 图10
13周课堂笔记 - 图11
13周课堂笔记 - 图12
13周课堂笔记 - 图13
13周课堂笔记 - 图14
用s’表示 13周课堂笔记 - 图15 ,根据价值函数定义有;
13周课堂笔记 - 图16
13周课堂笔记 - 图17
13周课堂笔记 - 图18
所以 13周课堂笔记 - 图19

贝尔曼方程的矩阵形式

13周课堂笔记 - 图20
13周课堂笔记 - 图21
即 13周课堂笔记 - 图22 解得 13周课堂笔记 - 图23
时间复杂度 13周课堂笔记 - 图24
该方程也可以用动态规划求解

动作价值函数Q

这里引入一个Q函数，叫做动态价值函数，其定义在某一个状态采取某一个动作所获得的期望回报
13周课堂笔记 - 图25
显然根据概率图模型可得：
13周课堂笔记 - 图26

Q函数的贝尔曼方程

13周课堂笔记 - 图27
13周课堂笔记 - 图28
13周课堂笔记 - 图29
13周课堂笔记 - 图30
13周课堂笔记 - 图31
由上面两个式子可以建立V和Q的关联
13周课堂笔记 - 图32
13周课堂笔记 - 图33

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录