2021/4/23

目前使用的方法

state:

全局信息:

我们目前使用的策略是给予每个agent所有config的信息,且所有agent共享reward(有这种情况存在):

Policy Gradient With Value Function Approximation For Collective Multiagent Planning.
Thien, Nguyen & Kumar, Akshat & Lau, Hoong. (2017).

非中心部分可观马尔可夫决策过程(Dec-POMDP)是一种处理多智能体序列化决策问题的模型,其子类CDec-POMDP表示群体的集体行动(collective behavior)会影响联合奖励(joint-reward)和环境动力学。

解决了8000agent的出租车调度问题,所以我们的agent数量并不算多

policy:

随机策略(stochastic policy)

R.Sutton 在2000年提出的Policy Gradient 方法,是RL中,学习连续的行为控制策略的经典方法,其提出的解决方案是:通过一个概率分布函数, 来表示每一步的最优策略, 在每一步根据该概率分布进行action采样,获得当前的最佳action取值;即:
生成action的过程,本质上是一个随机过程;最后学习到的策略,也是一个随机策略

期望改进的方向:

state:

提供两个思路:

  1. single之间,以及每一个group之间共享state
  2. 通过后期聚类之后,每一个类别之间共享state

但是不确定这样做的有效性,因为按道理来说,应该是全局信息表现要好于局部信息,因为这样可以省去agent之间通信的部分,还有一个思路就是依靠罗老师之前说的把state分成主次部分,具体还需要再请教下罗老师

policy:

确定性策略(Deterministic Policy)

Deepmind的D.Silver等在2014年提出DPG:Deterministic Policy Gradient, 即确定性的行为策略,每一步的行为通过函数直接获得确定的值,这个函数即最优行为策略,不再是一个需要采样的随机策略。
可知
为何需要确定性的策略?简单来说,PG方法有以下缺陷:

  1. 即使通过PG学习得到了随机策略之后,在每一步行为时,我们还需要对得到的最优策略概率分布进行采样,才能获得action的具体值;而action通常是高维的向量,比如25维、50维,在高维的action空间的频繁采样,无疑是很耗费计算能力的;
  2. 在PG的学习过程中,每一步计算policy gradient都需要在整个action space进行积分:

(但是这些缺点都建立在action高维的情况下,我们暂时不算)

由此得到了DDGP算法,在此基础上有了更为经典的MADDPG算法,但是我个人认为不够适合我们需解决的问题。