离散时间的马尔可夫过程

浏览 123 扫码分享 2023-11-22 00:18:48

马尔科夫决策模型
- 马尔科夫决策过程
- 策略和价值函数

马尔科夫决策模型

马尔科夫决策过程

假设对于智能体和环境来说，环境的状态空间为离散时间的马尔可夫过程 - 图1 ，智能体的观测空间为离散时间的马尔可夫过程 - 图2 ，动作空间为离散时间的马尔可夫过程 - 图3 ，奖励空间为离散时间的马尔可夫过程 - 图4 。智能体和环境交互开始和结束，环境都有初始态和隐藏态，那么离散强化学习的过程链可以表达为
离散时间的马尔可夫过程 - 图5
以上过程链路假设在环境不是完全可观测态，若环境完全可观测，则离散时间的马尔可夫过程 - 图6 和离散时间的马尔可夫过程 - 图7 可以合并

假设所获得的奖励和环境新的状态只取决于当前的动作和环境状态，且状态空间，动作空间和奖励空间有限，这样的过程就可以称为有限马尔科夫决策过程

对于有限马尔科夫决策过程来说，在强化学习中将系统动态的变化称为动力，认为做出了动作a后，

环境状态变为，奖励为r的概率为 :

离散时间的马尔可夫过程 - 图9

状态变为的概率为：

离散时间的马尔可夫过程 - 图11

给定了状态和动作后的奖励期望为

离散时间的马尔可夫过程 - 图12

给定了动作，状态，下时刻状态下奖励的期望为

离散时间的马尔可夫过程 - 图13

策略和价值函数

策略是从状态到动作的转移概率分布，我们定义策略为：
离散时间的马尔可夫过程 - 图14
若存在一个策略离散时间的马尔可夫过程 - 图15 ，使得对于任意的离散时间的马尔可夫过程 - 图16 ，都存在一个离散时间的马尔可夫过程 - 图17 ，使得离散时间的马尔可夫过程 - 图18 ，则我们称这样的策略为确定性策略，可以表示为离散时间的马尔可夫过程 - 图19

强化学习的目标是最大化长期奖励。假设在某一回合T达到了终止状态，那么从第t步之后的回报可以定义为：
离散时间的马尔可夫过程 - 图20
但是以上的公式将最近的奖励和未来的奖励同等考虑，这样存在以下问题

在很多时候，当前利益和未来利益不能同等考虑
在连续时间内，未来奖励信息的总和会无穷大

因此需要引入时间衰减因子，定义奖励为
离散时间的马尔可夫过程 - 图21

定义在状态s下采取策略的预期回报为状态价值函数

离散时间的马尔可夫过程 - 图23

定义在状态s下采取动作a后，采用策略的预期回报为动作价值函数

离散时间的马尔可夫过程 - 图25

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录