Sparse Reward的解决办法,有Reward Shaping、Curriculum Learning、Reverse Curriculum Generation、Hierarchical RL。接下来,分别介绍其核心思想。
Reward Shaping
Reward Shaping的核心思想是对环境人为的设计一些Reward,从而使agent达到最优状态。
Curriculum Learning
Curriculum Learning的核心思想为:使agent学习的难度由易到难,首先让agent从最容易达到最优状态的状态开始学习,逐渐的增加难度,从而agent可以从最初状态学习。
Reverse Curriculum Generation
Reverse Curriculum Generation的核心思想为:与currciculum learning有不同的地方,该方法从最初状态开始学起,逐渐接近到最优状态。
Hierarchical RL
Hierarchical RL的核心思想为:把复杂的问题进行拆分成小问题,每个agent解决一个问题。
