Policy Gradient

    术语和基本思想

    基本组成:

    actor (即policy gradient要学习的对象, 是我们可以控制的部分)

    环境 environment (给定的,无法控制)

    回报函数 reward function (无法控制)

    episode:游戏从开始到结束的一个完整的回合

    actor的目标:最大化总收益reward

    π(θ):输入state,输出actor

    Trajectory τ:行动action和状态state的序列

    给定神经网络参数θ的情况下,出现行动状态序列τ的概率pθ(τ):

    1Policy Gradient和Proximal Policy Gradient - 图1

    1Policy Gradient和Proximal Policy Gradient - 图2

    1Policy Gradient和Proximal Policy Gradient - 图3

    对θ梯度上升

    1Policy Gradient和Proximal Policy Gradient - 图4

    1Policy Gradient和Proximal Policy Gradient - 图5

    如果reward function本来只能取正值,增加baseline,让reward function的值可以为负

    1Policy Gradient和Proximal Policy Gradient - 图6

    在sampling不够多的情况下,尽量要让reward funtion对每一步行为都做出评价,否则一场game结束后无法区分哪些actor是好的,哪些的坏的。

    如果每一步结束后有一个总体的奖励,可以计算从这个动作开始到结束的奖励值之和作为权重。并且离得越远,贡献越小,增加一个衰减。

    1Policy Gradient和Proximal Policy Gradient - 图7

    从on-policy到off-policy (反复多次使用经验)

    术语和基本思想

    On-policy: 学习的agent以及和环境进行互动的agent是同一个agent(一边玩一边学)

    Off-policy: 学习的agent以及和环境进行互动的agent是不同的agent(看别人玩的时候学习)

    Proximal Policy Gradient