value-base 的强化学习值函数的近似估计会过估计值函数(DQN),作者将Double Q-Learning处理过拟合的思想引入actor critic算法中,提出了 TD3 算法。

摘要

众所周知,在基于价值学习的强化学习算法中,如DQN,函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在,并提出了新的机制去最小化它对演员(策略函数)和评论家(估值函数)的影响。我们的算法建立在双Q学习的基础上,通过选取两个估值函数中的较小值,从而限制它对Q值的过高估计。我们展示了目标函数与高估偏差之间的联系,并建议使用延迟更新策略以减少每次更新的误差,从而进一步提高了算法性能。我们在OpenAI上的一整套任务上估值了我们的方法,并且在每个任务环境中都展现出了最高水平(2018.10.)。

总结

与原版DDPG相比,TD3的改动可以概括为:

  • 使用与 双Q学习(Double DQN)相似的思想:使用两个Critic(估值网络Q(s, a))对动作-值进行评估,训练的时候取 📝[TD3]Addressing Function Approximation Error in Actor-Critic Methods - 图1 作为估计值,这个结构可以用很小的改动加入到其他算法中
  • 使用延迟学习:更新估值函数的频率大于策略函数
  • 使用软更新:更新的时候不直接复制网络参数,而是 📝[TD3]Addressing Function Approximation Error in Actor-Critic Methods - 图2
  • 使用梯度截取:将用于Actor(策略网络)参数更新的梯度截取到某个范围内
  • 使用策略噪声:TD3不仅和其他算法一样,使用epsilon-Greedy 在探索的时候使用了探索噪声,而且还使用了策略噪声,在update参数的时候,用于平滑策略期望。

参考

  1. 强化学习算法TD3论文的翻译与解读
  2. 浅谈TD3:从算法原理到代码实现
  3. 【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods

About

[PDF]
[Code]