Policy Gradient的计算原理 - 《技术总结》

方式一
方式二
参考文献

Policy Gradient的计算主要分为两种方式，分别为优化参数 Policy Gradient的计算原理 - 图1 使每个eposide奖励最大化和使初始状态价值最大化的优化。由于，基于假设不同，因此该两种计算方式具有极大差别。接下来，分别进行介绍。

方式一

性能指标：求使每个trajectory奖励最大化的参数 Policy Gradient的计算原理 - 图2 。
Policy Gradient的计算原理 - 图3 (1.1)
接下来，主要对公式1.1进行推导：
Policy Gradient的计算原理 - 图4 (1.2)
Policy Gradient的计算原理 - 图5 (1.3)

Policy Gradient的计算原理 - 图6 (1.4)

Policy Gradient的计算原理 - 图7 (1.5)

Policy Gradient的计算原理 - 图8 (1.6)

方式二

性能指标：求使初始状态 Policy Gradient的计算原理 - 图9 最大化的参数 Policy Gradient的计算原理 - 图10 。
Policy Gradient的计算原理 - 图11 (2.1)
接下来，主要对公式2.1进行推导：
Policy Gradient的计算原理 - 图12 (2.2)

Policy Gradient的计算原理 - 图13 (2.3)

Policy Gradient的计算原理 - 图14 (2.4)

Policy Gradient的计算原理 - 图15 (2.5)

Policy Gradient的计算原理 - 图16 (2.6)

Policy Gradient的计算原理 - 图17 (2.7)

参考文献

Policy Optimization: Foundation (策略优化基础篇)
Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction; 2nd Edition. 2017.
Policy Gradient Algorithms