强化学习

浏览 36 扫码分享 2023-11-22 00:28:27

1.马尔可夫决策过程MDP
2.MDP-动态规划

1.马尔可夫决策过程MDP

1.1背景

随机变量：研究对象是一个或多个随机变量，探索其是一维还是多维、分布函数、类型(连续or离散)、（多维）随机变量之间关系（是否独立）、随机变量数字特征(期望、方差、协方差、矩等)
随机过程：研究一组特殊的随机变量
马尔科夫链/过程：具备马尔可夫性质的随机过程
状态空间模型：(HMM, Kalman Filter, Particle Filter)
：
：

符号说明

1.2动态特性

MDP是“从与环境的交互中学习来达成目标”这一问题的框架。学习器及决策者称为智能体 强化学习 - 图16 ；由代理之外的一切组成的并与代理所交互的事物被称为环境强化学习 - 图17 。二者持续交互：代理选择动作，环境对动作做出反馈并更新环境，代理希望选择一个最优的动作策略来获得最大化奖励的积累量。

定义：动态函数 强化学习 - 图19
强化学习 - 图20
注1：这里的强化学习 - 图21 其实也具有随机性，只是在现实中大多数情形下表现并不明显，比如采取了同样的强化学习 - 图22 和强化学习 - 图23 ，强化学习 - 图24 可能会取0.8，也有可能会取0.9
注2：动态函数是一个条件概率，满足归一性：强化学习 - 图25
通过状态函数，我们可以计算出任何与环境相关的信息，如：状态转移概率，状态-动作对的期望奖赏、状态-动作-下一状态的期望奖赏。

状态转移函数

强化学习 - 图27

状态-动作期望奖赏

强化学习 - 图29

状态-动作-下一状态期望奖赏

强化学习 - 图31

1.3策略与价值函数

决策函数集

强化学习目的是为了能够通过智能体与环境的交互学习到某种最优的的策略。
定义：策略强化学习 - 图32 是从状态到动作的一个映射，分为确定性策略和随机性策略，强化学习 - 图33

确定性策略：
随机性策略：

表现度量
为了学习到最优的策略，需要确定一个表现度量，对于强化学习来说，这种度量就是极大化回报。
定义：回报是奖赏序列的某一具体函数
最简单的情况-奖赏之和：
未来奖赏在当前值：，其中称为折扣因子，决定了未来奖赏的当前值。

注：由于策略是随机的，强化学习 - 图39 仅仅代表一种可能，并不能充分反映该策略的好坏，因此我们希望能用一个期望回报来作为表现度量。
value function.png
定义：值函数 强化学习 - 图41

状态值函数：
动作值函数：

注：在强化学习 - 图44 里强化学习 - 图45 对强化学习 - 图46 有约束，而在强化学习 - 图47 里没有约束。
二者关系：

状态值函数是动作值函数的加权平均：

动作值函数是状态值函数的加权平均

所以，可以推出贝尔曼期望方程 强化学习 - 图52

2.MDP-动态规划

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录