强化学习 - 1Policy Gradient和Proximal Policy Gradient - 《Deep Learning》

Policy Gradient

术语和基本思想

基本组成:

actor (即policy gradient要学习的对象, 是我们可以控制的部分)

环境 environment (给定的，无法控制)

回报函数 reward function (无法控制)

episode:游戏从开始到结束的一个完整的回合

actor的目标:最大化总收益reward

π(θ)：输入state，输出actor

Trajectory τ:行动action和状态state的序列

给定神经网络参数θ的情况下，出现行动状态序列τ的概率pθ(τ):

1Policy Gradient和Proximal Policy Gradient - 图1

1Policy Gradient和Proximal Policy Gradient - 图2

1Policy Gradient和Proximal Policy Gradient - 图3

对θ梯度上升

1Policy Gradient和Proximal Policy Gradient - 图4

1Policy Gradient和Proximal Policy Gradient - 图5

如果reward function本来只能取正值，增加baseline，让reward function的值可以为负

1Policy Gradient和Proximal Policy Gradient - 图6

在sampling不够多的情况下，尽量要让reward funtion对每一步行为都做出评价，否则一场game结束后无法区分哪些actor是好的，哪些的坏的。

如果每一步结束后有一个总体的奖励，可以计算从这个动作开始到结束的奖励值之和作为权重。并且离得越远，贡献越小，增加一个衰减。

1Policy Gradient和Proximal Policy Gradient - 图7

从on-policy到off-policy （反复多次使用经验）

术语和基本思想

On-policy: 学习的agent以及和环境进行互动的agent是同一个agent（一边玩一边学）

Off-policy: 学习的agent以及和环境进行互动的agent是不同的agent（看别人玩的时候学习）

Proximal Policy Gradient