📝[TD3]Addressing Function Approximation Error in Actor-Critic Methods

浏览 152 扫码分享 2023-11-24 00:17:46

摘要
总结
参考
About

value-base 的强化学习值函数的近似估计会过估计值函数(DQN)，作者将Double Q-Learning处理过拟合的思想引入actor critic算法中，提出了 TD3 算法。

摘要

众所周知，在基于价值学习的强化学习算法中，如DQN，函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在，并提出了新的机制去最小化它对演员（策略函数）和评论家（估值函数）的影响。我们的算法建立在双Q学习的基础上，通过选取两个估值函数中的较小值，从而限制它对Q值的过高估计。我们展示了目标函数与高估偏差之间的联系，并建议使用延迟更新策略以减少每次更新的误差，从而进一步提高了算法性能。我们在OpenAI上的一整套任务上估值了我们的方法，并且在每个任务环境中都展现出了最高水平（2018.10.）。

总结

与原版DDPG相比，TD3的改动可以概括为：

使用与 双Q学习（Double DQN）相似的思想：使用两个Critic（估值网络Q(s, a)）对动作-值进行评估，训练的时候取作为估计值，这个结构可以用很小的改动加入到其他算法中
使用延迟学习：更新估值函数的频率大于策略函数
使用软更新：更新的时候不直接复制网络参数，而是
使用梯度截取：将用于Actor（策略网络）参数更新的梯度截取到某个范围内
使用策略噪声：TD3不仅和其他算法一样，使用epsilon-Greedy 在探索的时候使用了探索噪声，而且还使用了策略噪声，在update参数的时候，用于平滑策略期望。

参考

About

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录