这篇文章是延续 VDN、QMIX 的工作,也是基于值分解的思路来解决多智能体强化学习合作问题。文章提出虽然VDN、QMIX都是 IGM(Individual-Global-Max)的充分条件,但是在具体的实现上分别引入了 📃[QTRAN]QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning - 图1📃[QTRAN]QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning - 图2 之间的加性、单调性假设限制,从而只能解决一部分的多智能体合作问题,对于一些可分解但是 📃[QTRAN]QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning - 图3📃[QTRAN]QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning - 图4
之间并不满足加和或者单调性性质的问题,就不能很好解决了。对此,本文中提出了一种新的分解方法,QTRAN,满足了IGM条件,而且并没有引入其他的假设限制,因此适用于更加广泛的问题。

摘要

我们在最近流行的分散执行(CTDE)机制的集中训练中探索基于价值的多智能体强化学习(MARL)任务解决方案。 然而,VDN 和 QMIX 是典型的例子,它们使用将联合动作价值函数分解为单独的思想以进行分散执行。 由于 VDN 和 QMIX 在分解中的结构限制,例如可加性和单调性,它们仅解决了一小部分可分解的 MARL 任务。 在本文中,我们提出了一种新的 MARL 分解方法 QTRAN,它不受这种结构约束,并采用了一种新方法将原始联合动作值函数转换为易于分解的函数,具有相同的 最佳行动。 QTRAN 保证比 VDN 或 QMIX 更一般的分解,因此比以前的方法涵盖更广泛的 MARL 任务类别。 我们对多域高斯挤压和修改后的捕食者-猎物任务的实验证明了 QTRAN 的卓越性能,在游戏中尤其是更大的利润率,其回报更积极地惩罚非合作行为

算法

总结

参考

  1. 多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解
  2. QTRAN 算法详解(VDN和QMIX的升级版本)
  3. MARL-3: ICML-2019 QTRAN
  4. 阅读QTRAN:Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning

About

[PDF]
[Code]