Policy Gradient的计算主要分为两种方式,分别为优化参数使每个eposide奖励最大化和使初始状态价值最大化的优化。由于,基于假设不同,因此该两种计算方式具有极大差别。接下来,分别进行介绍。
方式一
性能指标:求使每个trajectory奖励最大化的参数。
(1.1)
接下来,主要对公式1.1进行推导: (1.2)
(1.3)
(1.4)
(1.5)
(1.6)
方式二
性能指标:求使初始状态最大化的参数
。
(2.1)
接下来,主要对公式2.1进行推导: (2.2)
(2.3)
(2.4)
(2.5)
(2.6)
(2.7)
参考文献
- Policy Optimization: Foundation (策略优化基础篇)
- Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction; 2nd Edition. 2017.
- Policy Gradient Algorithms