Dreamer：使用世界模型的可扩展强化学习 - 《Apaas平台》

本文翻译至：Dreamer：使用世界模型的可扩展强化学习

ntroducing Dreamer：使用世界模型的可扩展强化学习
人工智能体如何选择行为以实现目标的研究在很大程度上是由于强化学习（RL）的应用而取得的进展。学习通过试错来预测成功动作的RL无模型方法，使得DeepMind的DQN可以玩AlphaStar游戏，AlphaStar可以在星际争霸II上击败世界冠军，但是需要大量的环境交互，限制了它们在真实场景中的实用性。

相比之下，基于模型的RL方法还可以学习环境的简化模型。这个世界模型允许代理预测潜在动作序列的结果，允许它通过假设的场景在新的情况下做出明智的决定，从而减少实现目标所需的试错。在过去，学习精确的世界模型并利用它们来学习成功的行为是一项挑战。虽然最近的研究，例如我们的深度规划网络（PlaNet），通过从图像中学习精确的世界模型来推动这些边界，但基于模型的方法仍然受到无效或计算成本高昂的规划机制的阻碍，限制了它们解决困难任务的能力。

今天，我们与DeepMind合作来介绍Dreamer，一个从图像中学习世界模型并使用它来学习远视行为的RL代理。Dreamer利用其世界模型通过模型预测的反向传播有效地学习行为。通过学习从原始图像中计算紧凑的模型状态，代理只需使用一个GPU就可以高效地并行地从数千个预测序列中学习。在给定原始图像输入的20个连续控制任务的基准上，Dreamer在性能、数据效率和计算时间方面达到了最新水平。为了促进RL的进一步发展，我们正在向研究界发布该源代码。

Dreamer是如何工作的？

Dreamer由三个过程组成，这三个过程是典型的基于模型的方法：学习世界模型，从世界模型的预测中学习行为，以及在环境中执行其学习行为以收集新的经验。为了学习行为，Dreamer使用一个价值网络来考虑超出计划范围的奖励，使用一个参与者网络来有效地计算行为。这三个可以并行执行的进程将重复执行，直到代理实现其目标：

学习世界模型
Dreamer利用了PlaNet模型，该模型基于从输入图像计算出的一系列紧凑模型状态来预测结果，而不是从一个图像直接预测到下一个图像。它自动学习生成模型状态，这些状态表示有助于预测未来结果的概念，例如对象类型、对象位置以及对象与其周围环境的交互。根据代理商过去经验数据集中的一系列图像、动作和奖励，Dreamer学习了如下所示的世界模型：

使用PlaNet模型的一个优点是，使用紧凑的模型状态而不是图像来提前预测，大大提高了计算效率。这使得该模型能够在单个GPU上并行预测数千个序列。该方法还可以促进推广，导致准确的长期视频预测。为了深入了解模型的工作原理，我们可以通过将紧凑模型状态解码回图像来可视化预测序列，如下所示，这是针对DeepMind控制套件的任务和DeepMind实验室环境的任务：

有效的行为学习
以前开发的基于模型的代理通常通过规划多个模型预测或使用世界模型代替模拟器来重用现有的无模型技术来选择操作。这两种设计都需要计算，并且没有充分利用所学的世界模型。此外，即使是强大的世界模型，其准确预测的能力也有限，这使得许多以前的基于模型的代理目光短浅。Dreamer通过对其世界模型的预测，通过反向传播学习价值网络和参与者网络，克服了这些限制。

Dreamer通过预测的状态序列向后传播奖励梯度，有效地学习演员网络来预测成功的行为，这对于无模型方法是不可能的。这告诉Dreamer，其行为的微小变化如何影响未来的奖励预测，从而使它能够在增加奖励最多的方向上完善演员网络。为了考虑超出预测范围的报酬，价值网络估计每个模型状态的未来报酬之和。然后，奖励和价值被反向传播，以优化参与者网络，以选择改进的操作：

Dreamer在几个方面与PlaNet不同。对于环境中给定的情况，PlaNet会在对不同动作序列的众多预测中寻找最佳动作。相比之下，Dreamer一方通过将计划和行动脱钩来实现这一昂贵的搜索。一旦它的actor网络被训练到预测序列上，它就可以计算与环境交互的动作，而无需额外的搜索。此外，Dreamer使用价值函数考虑超出计划范围的回报，并利用反向传播进行有效的计划。

执行控制任务
我们在20个不同任务的标准基准上对Dreamer进行了评估，包括连续的动作和图像输入。任务包括平衡和捕捉物体，以及各种模拟机器人的运动。这些任务旨在对RL代理提出各种挑战，包括难以预测碰撞、稀疏奖励、混沌动力学、小但相关的对象、高度自由度和3D透视图：

我们将Dreamer的性能与PlaNet、以前最好的基于模型的代理、流行的无模型代理A3C以及当前在此基准上最好的无模型代理D4PG的性能进行了比较，D4PG结合了无模型RL的一些进展。基于模型的智能体可以在500万帧以下高效学习，模拟时间为28小时。无模型代理学习更慢，需要1亿帧，对应于23天内的模拟。

在20个任务的基准上，Dreamer的平均得分为823分，高于最佳无模型代理（D4PG），而786分，同时从20倍的环境交互中学习。而且，它超过了几乎所有任务中以前最好的基于模型的代理（PlaNet）的最终性能。训练做梦者16小时的计算时间小于其他方法所需的24小时。四种代理的最终性能如下：

除了我们在连续控制任务上的主要实验外，我们还将其应用于具有离散动作的任务，以证明Dreamer的通用性。为此，我们选择了Atari游戏和DeepMind实验室级别，这两个级别需要反应性和长远的行为、空间意识和对视觉上更加多样化场景的理解。结果行为如下所示，表明Dreamer也能有效地学习解决这些更具挑战性的任务：

结论
我们的工作表明，仅从世界模型预测的序列中学习行为就可以解决来自图像输入的具有挑战性的视觉控制任务，超过了以往无模型方法的性能。此外，Dreamer证明了通过预测的紧致模型状态序列反向传播值梯度的学习行为是成功的和鲁棒的，解决了连续和离散控制任务的多样集合。我们相信，梦者为进一步推动强化学习的限制提供了坚实的基础，包括更好的表示学习、定向探索与不确定性估计、时间抽象和多任务学习。