Stable Baselines/用户向导/RL算法 - 《Stable Baselines 官方文档中文版帮助手册教程》

Stable Baselines/用户向导/RL算法

Stable Baselines官方文档中文版 Github CSDN 尝试翻译官方文档，水平有限，如有错误万望指正

下面这个表格展示了stable baselines项目中采用的所有RL算法及其重要特征：迭代策略、离散/连续行动、多线程

Name	Refactored [1]	Recurrent	`Box`	`Discrete`	Multi Processing
A2C	✔️	✔️	✔️	✔️	✔️
ACER	✔️	✔️	❌ [4]	✔️	✔️
ACKTR	✔️	✔️	❌ [4]	✔️	✔️
DDPG	✔️	❌	✔️	❌	✔️ [3]
DQN	✔️	❌	❌	✔️	❌
HER	✔️	❌	✔️	✔️	❌
GAIL [2]	✔️	✔️	✔️	✔️	✔️ [3]
PPO1	✔️	❌	✔️	✔️	✔️ [3]
PPO2	✔️	✔️	✔️	✔️	✔️
SAC	✔️	❌	✔️	❌	❌
TD3	✔️	❌	✔️	❌	❌
TRPO	✔️	❌	✔️	✔	✔️ [3]

[1] 是否重构以适应BaseRLModel类

[2] 只用于TRPO

[3] (1,2,3,4)用MPI实现多重处理

[4] 在项目范围内，(1,2)必做

目前任何算法都不支持类似Dict或Tuple这种非数组空间，除非HER与gym.GoalEnv一起用，此时会支持Dict

各类行动gym.spaces: