OpenAI提出的基于 AC 的新型策略梯度算法,继承了了 TRPO 算法部分内容。PPO 通过重要性采样更新策略,通过剪裁梯度限制了新旧策略的更新步长,效果非常显著。
摘要
我们提出了一类新的用于强化学习的策略梯度方法,该方法可以在与环境交互进行数据采样和使用随机梯度上升优化一个“替代”目标函数之间进行交替。标准策略梯度方法对每个数据样本执行一个梯度更新,而我们提出了一种新的目标函数,该函数可实现多次的小批量更新。我们称为近端策略优化(PPO)的新方法具有信赖域策略优化(TRPO)的一些优点,但它们实施起来更简单,更通用,并且具有更好的样本复杂性(经验上)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏,我们证明了PPO的性能优于其他在线策略梯度方法,并且总体上在样本复杂性,简单性和有效期之间取得了良好的平衡。
算法
参考
- Proximal Policy Optimization (PPO)详解
- Proximal Policy Optimization Algorithms翻译
- 《Proximal Policy Optimization Algorithms》—强化学习论文笔记
- Proximal Policy Optimization Algorithms
- 浅析强化学习Proximal Policy Optimization Algorithms(PPO)
- 强化学习入门(三):PPO、PPO2、TRPO算法思想
- 强化学习Proximal Policy Optimization(PPO)算法详解