本文主要撰写强化学习在求解问题时,依赖的基础理论。如下图1所示,基础理论概况。
强化学习常见基础理论 - 图1

GPI

广义策略迭代(Generative Policy Iteration)是指:策略迭代包括两个同时进行的相互作用的流程,一个使得价值函数与当前策略一致,另一个根据当前价值函数贪心的更新策略。在策略迭代中,该两个流程交替进行,而不是一直迭代到收敛。如下图1所示,广义策略迭代流程示意图。
GPI.png
图1 GPI示意图
广义策略迭代不是定理,只是对上述策略迭代一般思路的描述。

GAE

Natural Gradient

参考文献

  1. High-dimensional continuous control using generalized advantage estimation