什么是强化学习

image.png
首先我们有环境和agent,环境给agent赋予一个状态s,agent根据s采取行动,环境回馈一个奖励
这个过程会持续下去。
例子:
image.png
image.png
image.png

马尔可夫决策过程

image.png
image.png
image.png
image.png
image.png

Q-Learning

image.png
image.png
image.png

Q-Network结构

假设进行游戏,四个action,上下左右
image.png

经验重放

image.png
image.png
image.png

策略梯度

Qlearning学习一大堆state,action对,但是很多情况下很复杂,策略梯度则直接学习策略。
image.png
image.png
image.png

image.png
image.png
使用baseline,折扣因子
image.png
image.png

Actor-Critic Algorithm

把策略梯度和Qlearning结合起来,actor(the policy),critic(the Q-function)
image.png

image.png