马尔科夫决策过程

image.png
智能体在环境中的一系列决策过程可以表示为一条轨迹即状态、动作、奖励的序列:
13周课堂笔记 - 图2
对强化学习来说数据就是一系列决策历史
13周课堂笔记 - 图3,数据集D也叫做经验experience

回报(return)即累计折扣奖励:
13周课堂笔记 - 图4
表示从t时刻起到结束所获得的累积折扣奖励。
回报的期望:
13周课堂笔记 - 图5
13周课堂笔记 - 图6
上面式子的计算需要已知环境动力学模型。

贝尔曼方程

如何判断一个状态好还是不好,可以使用状态价值函数:
13周课堂笔记 - 图7
关于全期望公式:13周课堂笔记 - 图8
根据全期望公式可知:13周课堂笔记 - 图9
13周课堂笔记 - 图10
13周课堂笔记 - 图11
13周课堂笔记 - 图12
13周课堂笔记 - 图13
13周课堂笔记 - 图14
用s’表示13周课堂笔记 - 图15,根据价值函数定义有;
13周课堂笔记 - 图16
13周课堂笔记 - 图17
13周课堂笔记 - 图18
所以13周课堂笔记 - 图19

贝尔曼方程的矩阵形式

13周课堂笔记 - 图20
13周课堂笔记 - 图21
13周课堂笔记 - 图22解得13周课堂笔记 - 图23
时间复杂度13周课堂笔记 - 图24
该方程也可以用动态规划求解

动作价值函数Q

这里引入一个Q函数,叫做动态价值函数,其定义在某一个状态采取某一个动作所获得的期望回报
13周课堂笔记 - 图25
显然根据概率图模型可得:
13周课堂笔记 - 图26

Q函数的贝尔曼方程

13周课堂笔记 - 图27
13周课堂笔记 - 图28
13周课堂笔记 - 图29
13周课堂笔记 - 图30
13周课堂笔记 - 图31
由上面两个式子可以建立V和Q的关联
13周课堂笔记 - 图32
13周课堂笔记 - 图33