2021/4/23
目前使用的方法
state:
全局信息:
我们目前使用的策略是给予每个agent所有config的信息,且所有agent共享reward(有这种情况存在):
Policy Gradient With Value Function Approximation For Collective Multiagent Planning.
Thien, Nguyen & Kumar, Akshat & Lau, Hoong. (2017).
非中心部分可观马尔可夫决策过程(Dec-POMDP)是一种处理多智能体序列化决策问题的模型,其子类CDec-POMDP表示群体的集体行动(collective behavior)会影响联合奖励(joint-reward)和环境动力学。
解决了8000agent的出租车调度问题,所以我们的agent数量并不算多
policy:
随机策略(stochastic policy)
R.Sutton 在2000年提出的Policy Gradient 方法,是RL中,学习连续的行为控制策略的经典方法,其提出的解决方案是:通过一个概率分布函数, 来表示每一步的最优策略, 在每一步根据该概率分布进行action采样,获得当前的最佳action取值;即:
生成action的过程,本质上是一个随机过程;最后学习到的策略,也是一个随机策略
期望改进的方向:
state:
提供两个思路:
- single之间,以及每一个group之间共享state
- 通过后期聚类之后,每一个类别之间共享state
但是不确定这样做的有效性,因为按道理来说,应该是全局信息表现要好于局部信息,因为这样可以省去agent之间通信的部分,还有一个思路就是依靠罗老师之前说的把state分成主次部分,具体还需要再请教下罗老师
policy:
确定性策略(Deterministic Policy)
Deepmind的D.Silver等在2014年提出DPG:Deterministic Policy Gradient, 即确定性的行为策略,每一步的行为通过函数直接获得确定的值,这个函数即最优行为策略,不再是一个需要采样的随机策略。
可知
为何需要确定性的策略?简单来说,PG方法有以下缺陷:
- 即使通过PG学习得到了随机策略之后,在每一步行为时,我们还需要对得到的最优策略概率分布进行采样,才能获得action的具体值;而action通常是高维的向量,比如25维、50维,在高维的action空间的频繁采样,无疑是很耗费计算能力的;
- 在PG的学习过程中,每一步计算policy gradient都需要在整个action space进行积分:
(但是这些缺点都建立在action高维的情况下,我们暂时不算)
由此得到了DDGP算法,在此基础上有了更为经典的MADDPG算法,但是我个人认为不够适合我们需解决的问题。
