Sparse Reward的解决办法,有Reward Shaping、Curriculum Learning、Reverse Curriculum Generation、Hierarchical RL。接下来,分别介绍其核心思想。

Reward Shaping

Reward Shaping的核心思想是对环境人为的设计一些Reward,从而使agent达到最优状态。

Curriculum Learning

Curriculum Learning的核心思想为:使agent学习的难度由易到难,首先让agent从最容易达到最优状态的状态开始学习,逐渐的增加难度,从而agent可以从最初状态学习。

Reverse Curriculum Generation

Reverse Curriculum Generation的核心思想为:与currciculum learning有不同的地方,该方法从最初状态开始学起,逐渐接近到最优状态。

Hierarchical RL

Hierarchical RL的核心思想为:把复杂的问题进行拆分成小问题,每个agent解决一个问题。

参考文献

  1. 强化学习中Sparse Reward问题该怎么解决
  2. [2017]Training agent for first-person shooter game with actor-critic curriculum learning
  3. [2019]Hierarchical Reinforcement Learning with Hindsight