强化学习常见基础理论 - 《技术总结》

GPI
GAE
Natural Gradient
参考文献

本文主要撰写强化学习在求解问题时，依赖的基础理论。如下图1所示，基础理论概况。
强化学习常见基础理论 - 图1

GPI

广义策略迭代(Generative Policy Iteration)是指：策略迭代包括两个同时进行的相互作用的流程，一个使得价值函数与当前策略一致，另一个根据当前价值函数贪心的更新策略。在策略迭代中，该两个流程交替进行，而不是一直迭代到收敛。如下图1所示，广义策略迭代流程示意图。

图1 GPI示意图
广义策略迭代不是定理，只是对上述策略迭代一般思路的描述。

GAE

Natural Gradient

参考文献

High-dimensional continuous control using generalized advantage estimation