这篇文章是延续 VDN、QMIX 的工作，也是基于值分解的思路来解决多智能体强化学习合作问题。文章提出虽然VDN、QMIX都是 IGM（Individual-Global-Max）的充分条件，但是在具体的实现上分别引入了 📃[QTRAN]QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning - 图1 、之间的加性、单调性假设限制，从而只能解决一部分的多智能体合作问题，对于一些可分解但是、
之间并不满足加和或者单调性性质的问题，就不能很好解决了。对此，本文中提出了一种新的分解方法，QTRAN，满足了IGM条件，而且并没有引入其他的假设限制，因此适用于更加广泛的问题。

摘要

我们在最近流行的分散执行（CTDE）机制的集中训练中探索基于价值的多智能体强化学习（MARL）任务解决方案。然而，VDN 和 QMIX 是典型的例子，它们使用将联合动作价值函数分解为单独的思想以进行分散执行。由于 VDN 和 QMIX 在分解中的结构限制，例如可加性和单调性，它们仅解决了一小部分可分解的 MARL 任务。在本文中，我们提出了一种新的 MARL 分解方法 QTRAN，它不受这种结构约束，并采用了一种新方法将原始联合动作值函数转换为易于分解的函数，具有相同的最佳行动。 QTRAN 保证比 VDN 或 QMIX 更一般的分解，因此比以前的方法涵盖更广泛的 MARL 任务类别。我们对多域高斯挤压和修改后的捕食者-猎物任务的实验证明了 QTRAN 的卓越性能，在游戏中尤其是更大的利润率，其回报更积极地惩罚非合作行为

算法

略

总结

略

参考

About

[PDF]
[Code]