📝[A3C]Asynchronous Methods for Deep Reinforcement Learning

浏览 186 扫码分享 2023-11-24 00:17:27

摘要
算法
参考
About

这篇论文是DeepMind在2016年发表在ICML上的论文，提出了大名鼎鼎的 A3C 算法，不再使用经验池，异步并行执行多个 Agents 来探索环境，整合了Value based 和 Policy Based两种主流的强化学习方法，在Atari 2600等模拟环境中取得SOTA成绩。

摘要

对于深度强化学习，我们提出了一个概念简单和轻量级的框架，使用异步梯度下降优化深度神经网络控制器。我们提出了四种标准强化学习算法的异步变体，并表明并行actor-learners对训练有一种稳定的效果，使得所有四种方法成功地训练神经网络控制器。==性能最好的方法是actor-learners的异步变体，在单多核CPU而不是GPU上训练一半时间的同时，超过了目前Atari领域的最先进技术。==此外，我们还展示了A2C成功地解决了一系列连续的电机控制问题，以及使用视觉输入导航随机3D迷宫的新任务。

算法

参考

About

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录