一 强化学习的基本要素
对于强化学习来说,有两个关键要素
- 奖励reward:奖励是强化学习的学习目标,强化学习的目的是最大化长时间的总奖励
- 策略policy:决策者会根据不同的状态观测采取不同的动作,从观测到动作的关系被称为策略
强化学习的系统可以分为智能体agent和环境
- 智能体agent:强化学习系统中的决策者和学习者,可以对环境做出观测和采取行为改变环境状态
- 环境environment:智能体交互的对象。环境本身可以是确定和不确定的,可以对环境进行建模
强化学习通常是一个马尔可夫过程,在时刻t发生的事情如下
- 智能体观测环境得到
- 智能体根据环境状态做出动作
- 智能体获得相应的奖励,同时环境状态变成
二 强化学习类型
- 按照任务进行分类
- 单智能体和多智能体:多智能体无法观测其他智能体信息
- 回合制任务和连续性任务:下围棋&机房资源调度
- 离散时间环境和连续时间环境:智能体和环境的交互是不是在连续时间中进行的
- 离散动作空间和连续动作空间:决策的动作是否是有限的
- 确定性环境和不确定环境:当前环境整体是否是结果确定的,如不变的迷宫
- 完全可观测环境和非完全可观测环境:智能体能否观察到环境全部信息,如下棋和打麻将
- 按照算法分类
- 同策学习OnPolicy和异策学习OffPolicy:同策学习是边决策边学习,异侧学习是通过之前自己或他人的历史学习
- 有模型学习和无模型学习:环境可否用数学模型表示
- 回合更新和时序差分更新:前者要等到回合结束才能进行更新,后者不需要
- Value-based和Policy-based:基于价值的模型会定义价值函数,选择价值最大的动作;基于策略的不需要,而是为动作分配概率分布
- 深度强化学习
