马尔科夫决策模型

马尔科夫决策过程

假设对于智能体和环境来说,环境的状态空间为离散时间的马尔可夫过程 - 图1,智能体的观测空间为离散时间的马尔可夫过程 - 图2,动作空间为离散时间的马尔可夫过程 - 图3,奖励空间为 离散时间的马尔可夫过程 - 图4。智能体和环境交互开始和结束,环境都有初始态和隐藏态,那么离散强化学习的过程链可以表达为
离散时间的马尔可夫过程 - 图5
以上过程链路假设在环境不是完全可观测态,若环境完全可观测,则离散时间的马尔可夫过程 - 图6离散时间的马尔可夫过程 - 图7可以合并

假设所获得的奖励和环境新的状态只取决于当前的动作和环境状态,且状态空间,动作空间和奖励空间有限,这样的过程就可以称为有限马尔科夫决策过程

对于有限马尔科夫决策过程来说,在强化学习中将系统动态的变化称为动力,认为做出了动作a后,

  • 环境状态变为离散时间的马尔可夫过程 - 图8,奖励为r的概率为 :

离散时间的马尔可夫过程 - 图9

  • 状态变为离散时间的马尔可夫过程 - 图10的概率为:

离散时间的马尔可夫过程 - 图11

  • 给定了状态和动作后的奖励期望为

离散时间的马尔可夫过程 - 图12

  • 给定了动作,状态,下时刻状态下奖励的期望为

离散时间的马尔可夫过程 - 图13

策略和价值函数

策略是从状态到动作的转移概率分布,我们定义策略为:
离散时间的马尔可夫过程 - 图14
若存在一个策略离散时间的马尔可夫过程 - 图15,使得对于任意的离散时间的马尔可夫过程 - 图16,都存在一个离散时间的马尔可夫过程 - 图17,使得离散时间的马尔可夫过程 - 图18,则我们称这样的策略为确定性策略,可以表示为离散时间的马尔可夫过程 - 图19

强化学习的目标是最大化长期奖励。假设在某一回合T达到了终止状态,那么从第t步之后的回报可以定义为:
离散时间的马尔可夫过程 - 图20
但是以上的公式将最近的奖励和未来的奖励同等考虑,这样存在以下问题

  • 在很多时候,当前利益和未来利益不能同等考虑
  • 在连续时间内,未来奖励信息的总和会无穷大

因此需要引入时间衰减因子,定义奖励为
离散时间的马尔可夫过程 - 图21

  • 定义在状态s下采取策略离散时间的马尔可夫过程 - 图22的预期回报为状态价值函数

离散时间的马尔可夫过程 - 图23

  • 定义在状态s下采取动作a后,采用策略离散时间的马尔可夫过程 - 图24的预期回报为动作价值函数

离散时间的马尔可夫过程 - 图25