强化基础及简单示例

浏览 90 扫码分享 2023-11-22 00:18:47

一强化学习的基本要素
二强化学习类型

一强化学习的基本要素

对于强化学习来说，有两个关键要素

奖励reward：奖励是强化学习的学习目标，强化学习的目的是最大化长时间的总奖励
策略policy：决策者会根据不同的状态观测采取不同的动作，从观测到动作的关系被称为策略

强化学习的系统可以分为智能体agent和环境

智能体agent：强化学习系统中的决策者和学习者，可以对环境做出观测和采取行为改变环境状态
环境environment：智能体交互的对象。环境本身可以是确定和不确定的，可以对环境进行建模

强化学习通常是一个马尔可夫过程，在时刻t发生的事情如下

智能体观测环境得到
智能体根据环境状态做出动作
智能体获得相应的奖励，同时环境状态变成

二强化学习类型

按照任务进行分类
- 单智能体和多智能体：多智能体无法观测其他智能体信息
- 回合制任务和连续性任务：下围棋&机房资源调度
- 离散时间环境和连续时间环境：智能体和环境的交互是不是在连续时间中进行的
- 离散动作空间和连续动作空间：决策的动作是否是有限的
- 确定性环境和不确定环境：当前环境整体是否是结果确定的，如不变的迷宫
- 完全可观测环境和非完全可观测环境：智能体能否观察到环境全部信息，如下棋和打麻将
按照算法分类
- 同策学习OnPolicy和异策学习OffPolicy：同策学习是边决策边学习，异侧学习是通过之前自己或他人的历史学习
- 有模型学习和无模型学习：环境可否用数学模型表示
- 回合更新和时序差分更新：前者要等到回合结束才能进行更新，后者不需要
- Value-based和Policy-based：基于价值的模型会定义价值函数，选择价值最大的动作；基于策略的不需要，而是为动作分配概率分布
- 深度强化学习

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录