Policy Gradient的计算主要分为两种方式,分别为优化参数Policy Gradient的计算原理 - 图1使每个eposide奖励最大化和使初始状态价值最大化的优化。由于,基于假设不同,因此该两种计算方式具有极大差别。接下来,分别进行介绍。

方式一

性能指标:求使每个trajectory奖励最大化的参数Policy Gradient的计算原理 - 图2
Policy Gradient的计算原理 - 图3 (1.1)
接下来,主要对公式1.1进行推导:
Policy Gradient的计算原理 - 图4 (1.2)
Policy Gradient的计算原理 - 图5 (1.3)

Policy Gradient的计算原理 - 图6 (1.4)

Policy Gradient的计算原理 - 图7 (1.5)

Policy Gradient的计算原理 - 图8 (1.6)

方式二

性能指标:求使初始状态Policy Gradient的计算原理 - 图9最大化的参数Policy Gradient的计算原理 - 图10
Policy Gradient的计算原理 - 图11 (2.1)
接下来,主要对公式2.1进行推导:
Policy Gradient的计算原理 - 图12 (2.2)

Policy Gradient的计算原理 - 图13 (2.3)

Policy Gradient的计算原理 - 图14 (2.4)

Policy Gradient的计算原理 - 图15 (2.5)

Policy Gradient的计算原理 - 图16 (2.6)

Policy Gradient的计算原理 - 图17 (2.7)

参考文献

  1. Policy Optimization: Foundation (策略优化基础篇)
  2. Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction; 2nd Edition. 2017.
  3. Policy Gradient Algorithms