1.马尔可夫决策过程MDP

1.1背景

  • 随机变量强化学习 - 图1:研究对象是一个或多个随机变量,探索其是一维还是多维、分布函数、类型(连续or离散)、(多维)随机变量之间关系(是否独立)、随机变量数字特征(期望、方差、协方差、矩等)
  • 随机过程强化学习 - 图2:研究一组特殊的随机变量强化学习 - 图3
  • 马尔科夫链/过程强化学习 - 图4:具备马尔可夫性质的随机过程 强化学习 - 图5
  • 状态空间模型强化学习 - 图6:(HMM, Kalman Filter, Particle Filter)强化学习 - 图7
  • 强化学习 - 图8强化学习 - 图9
  • 强化学习 - 图10强化学习 - 图11

符号说明

  • 强化学习 - 图12
  • 强化学习 - 图13
  • 强化学习 - 图14

MDP1.png

1.2动态特性

MDP是“从与环境的交互中学习来达成目标”这一问题的框架。学习器及决策者称为智能体强化学习 - 图16;由代理之外的一切组成的并与代理所交互的事物被称为环境强化学习 - 图17。二者持续交互:代理选择动作,环境对动作做出反馈并更新环境,代理希望选择一个最优的动作策略来获得最大化奖励的积累量。
image.png
定义:动态函数强化学习 - 图19
强化学习 - 图20
注1:这里的强化学习 - 图21其实也具有随机性,只是在现实中大多数情形下表现并不明显,比如采取了同样的强化学习 - 图22强化学习 - 图23强化学习 - 图24可能会取0.8,也有可能会取0.9
注2:动态函数是一个条件概率,满足归一性:强化学习 - 图25
通过状态函数,我们可以计算出任何与环境相关的信息,如:状态转移概率,状态-动作对的期望奖赏、状态-动作-下一状态的期望奖赏。

  • 状态转移函数强化学习 - 图26

强化学习 - 图27

  • 状态-动作期望奖赏强化学习 - 图28

强化学习 - 图29

  • 状态-动作-下一状态期望奖赏强化学习 - 图30

强化学习 - 图31

1.3策略与价值函数

决策函数集

强化学习目的是为了能够通过智能体与环境的交互学习到某种最优的的策略。
定义:策略强化学习 - 图32是从状态到动作的一个映射,分为确定性策略和随机性策略,强化学习 - 图33

  • 确定性策略强化学习 - 图34
  • 随机性策略强化学习 - 图35

    表现度量

    为了学习到最优的策略,需要确定一个表现度量,对于强化学习来说,这种度量就是极大化回报。
    定义:回报是奖赏序列的某一具体函数

  • 最简单的情况-奖赏之和:强化学习 - 图36

  • 未来奖赏在当前值:强化学习 - 图37,其中强化学习 - 图38称为折扣因子,决定了未来奖赏的当前值 。

注:由于策略是随机的,强化学习 - 图39仅仅代表一种可能,并不能充分反映该策略的好坏,因此我们希望能用一个期望回报来作为表现度量。
value function.png
定义:值函数强化学习 - 图41

  • 状态值函数:强化学习 - 图42
  • 动作值函数:强化学习 - 图43

注:强化学习 - 图44强化学习 - 图45强化学习 - 图46有约束,而在强化学习 - 图47里没有约束。
二者关系:

  • 状态值函数是动作值函数的加权平均:强化学习 - 图48

image.png

  • 动作值函数是状态值函数的加权平均强化学习 - 图50

image.png
所以,可以推出贝尔曼期望方程强化学习 - 图52

  • 强化学习 - 图53
  • 强化学习 - 图54

    2.MDP-动态规划