2021/4/23
目前使用的方法
期望改进的方向：
- state：
- policy：
  - 确定性策略(Deterministic Policy)

2021/4/23

目前使用的方法

state：

全局信息：

我们目前使用的策略是给予每个agent所有config的信息，且所有agent共享reward（有这种情况存在）：

Policy Gradient With Value Function Approximation For Collective Multiagent Planning.
Thien, Nguyen & Kumar, Akshat & Lau, Hoong. (2017).

非中心部分可观马尔可夫决策过程（Dec-POMDP）是一种处理多智能体序列化决策问题的模型，其子类CDec-POMDP表示群体的集体行动（collective behavior）会影响联合奖励（joint-reward）和环境动力学。

解决了8000agent的出租车调度问题，所以我们的agent数量并不算多

policy：

随机策略(stochastic policy)

R.Sutton 在2000年提出的Policy Gradient 方法，是RL中，学习连续的行为控制策略的经典方法，其提出的解决方案是：通过一个概率分布函数，来表示每一步的最优策略，在每一步根据该概率分布进行action采样，获得当前的最佳action取值；即：
生成action的过程，本质上是一个随机过程；最后学习到的策略，也是一个随机策略

期望改进的方向：

state：

提供两个思路：

single之间，以及每一个group之间共享state
通过后期聚类之后，每一个类别之间共享state

但是不确定这样做的有效性，因为按道理来说，应该是全局信息表现要好于局部信息，因为这样可以省去agent之间通信的部分，还有一个思路就是依靠罗老师之前说的把state分成主次部分，具体还需要再请教下罗老师

policy：

确定性策略(Deterministic Policy)

Deepmind的D.Silver等在2014年提出DPG：Deterministic Policy Gradient，即确定性的行为策略，每一步的行为通过函数直接获得确定的值，这个函数即最优行为策略，不再是一个需要采样的随机策略。
可知
为何需要确定性的策略？简单来说，PG方法有以下缺陷：

即使通过PG学习得到了随机策略之后，在每一步行为时，我们还需要对得到的最优策略概率分布进行采样，才能获得action的具体值；而action通常是高维的向量，比如25维、50维，在高维的action空间的频繁采样，无疑是很耗费计算能力的；
在PG的学习过程中，每一步计算policy gradient都需要在整个action space进行积分:

(但是这些缺点都建立在action高维的情况下，我们暂时不算)

由此得到了DDGP算法，在此基础上有了更为经典的MADDPG算法，但是我个人认为不够适合我们需解决的问题。

Reinforcement Learning学习笔记

对于目前multi agent算法改善的思考

2021/4/23

目前使用的方法

state：

全局信息：

policy：

随机策略(stochastic policy)

期望改进的方向：

state：

policy：

确定性策略(Deterministic Policy)