强化学习

浏览 258 扫码分享 2023-11-26 09:20:31

什么是强化学习
马尔可夫决策过程
Q-Learning
- Q-Network结构
- 经验重放
策略梯度
Actor-Critic Algorithm

什么是强化学习

首先我们有环境和agent，环境给agent赋予一个状态s，agent根据s采取行动，环境回馈一个奖励
这个过程会持续下去。
例子：

马尔可夫决策过程

Q-Learning

Q-Network结构

假设进行游戏，四个action，上下左右

经验重放

策略梯度

Qlearning学习一大堆state,action对，但是很多情况下很复杂，策略梯度则直接学习策略。

使用baseline,折扣因子

Actor-Critic Algorithm

把策略梯度和Qlearning结合起来，actor(the policy)，critic(the Q-function)

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录