value-base 的强化学习值函数的近似估计会过估计值函数(DQN),作者将Double Q-Learning处理过拟合的思想引入actor critic算法中,提出了 TD3 算法。
摘要
众所周知,在基于价值学习的强化学习算法中,如DQN,函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在,并提出了新的机制去最小化它对演员(策略函数)和评论家(估值函数)的影响。我们的算法建立在双Q学习的基础上,通过选取两个估值函数中的较小值,从而限制它对Q值的过高估计。我们展示了目标函数与高估偏差之间的联系,并建议使用延迟更新策略以减少每次更新的误差,从而进一步提高了算法性能。我们在OpenAI上的一整套任务上估值了我们的方法,并且在每个任务环境中都展现出了最高水平(2018.10.)。
总结
与原版DDPG相比,TD3的改动可以概括为:
- 使用与 双Q学习(Double DQN)相似的思想:使用两个Critic(估值网络Q(s, a))对动作-值进行评估,训练的时候取
作为估计值,这个结构可以用很小的改动加入到其他算法中
- 使用延迟学习:更新估值函数的频率大于策略函数
- 使用软更新:更新的时候不直接复制网络参数,而是
- 使用梯度截取:将用于Actor(策略网络)参数更新的梯度截取到某个范围内
- 使用策略噪声:TD3不仅和其他算法一样,使用epsilon-Greedy 在探索的时候使用了探索噪声,而且还使用了策略噪声,在update参数的时候,用于平滑策略期望。
参考
- 强化学习算法TD3论文的翻译与解读
- 浅谈TD3:从算法原理到代码实现
- 【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods