马尔科夫决策模型
马尔科夫决策过程
假设对于智能体和环境来说,环境的状态空间为,智能体的观测空间为
,动作空间为
,奖励空间为
。智能体和环境交互开始和结束,环境都有初始态和隐藏态,那么离散强化学习的过程链可以表达为
以上过程链路假设在环境不是完全可观测态,若环境完全可观测,则和
可以合并
假设所获得的奖励和环境新的状态只取决于当前的动作和环境状态,且状态空间,动作空间和奖励空间有限,这样的过程就可以称为有限马尔科夫决策过程
对于有限马尔科夫决策过程来说,在强化学习中将系统动态的变化称为动力,认为做出了动作a后,
- 环境状态变为
,奖励为r的概率为 :
- 状态变为
的概率为:
- 给定了状态和动作后的奖励期望为
- 给定了动作,状态,下时刻状态下奖励的期望为
策略和价值函数
策略是从状态到动作的转移概率分布,我们定义策略为:
若存在一个策略,使得对于任意的
,都存在一个
,使得
,则我们称这样的策略为确定性策略,可以表示为
强化学习的目标是最大化长期奖励。假设在某一回合T达到了终止状态,那么从第t步之后的回报可以定义为:
但是以上的公式将最近的奖励和未来的奖励同等考虑,这样存在以下问题
- 在很多时候,当前利益和未来利益不能同等考虑
- 在连续时间内,未来奖励信息的总和会无穷大
因此需要引入时间衰减因子,定义奖励为
- 定义在状态s下采取策略
的预期回报为状态价值函数
- 定义在状态s下采取动作a后,采用策略
的预期回报为动作价值函数
