对价值函数进行近似进而确定策略的方法被证明在理论上是棘手的。这篇文章是直接用一个函数近似来显式地表示策略，而不管价值函数，并根据期望 reward 对策略参数的梯度进行更新。

摘要

函数逼近对强化学习至关重要，但迄今为止，逼近值函数并从中确定策略的标准方法在理论上被证明是难以实现的。在本文中，我们探索了一种替代方法，其中策略由其自身的函数逼近器明确表示，独立于值函数，并根据与策略参数相关的预期回报的梯度进行更新。威廉姆斯的REINFORCE方法和actor-critic方法就是这种方法的例子。我们的主要新结果是，梯度可以被写成一种形式，这种形式适用于由经验估计，辅以近似的行动值或优势函数。使用此结果，我们证明了第一次使用任意可扩散函数近似的策略迭代版本收敛于局部最优策略。

背景

强化学习（RL）的大型应用需要使用广义函数逼近器，例如神经网络，决策树或基于实例的方法。过去十年的主导方法是价值函数方法，其中所有函数逼近效应都用于估计价值函数，行动选择策略隐含地表示为关于估计值的“贪婪”策略（例如，作为在每个状态选择具有最高估计值的动作的策略）。价值函数方法在许多应用程序中都运行良好，但有一些局限性。首先，它面向确定性策略，而最优策略通常是随机的，选择具有特定概率的不同动作（例如，参见Singh，Jaakkola和Jordan，1994）。

其次，动作的估计值的任意小的变化可以使其被选择或不被选择。这种不连续的变化已被确定为遵循价值函数方法建立算法收敛保证的关键障碍（Bertsekas和Tsitsiklis，1996）。例如，Q-learning，Sarsa和动态编程方法都显示出无法收敛到简单MDP和简单函数逼近器的任何策略（Gordon，1995,1996; Baird，1995; Tsitsiklis和van Roy，1996; Bertsekas和 Tsitsiklis，1996）。即使在改变策略之前的每一步都找到了最佳逼近，并且“最佳”的概念是在均方误差意义上，还是在残差双梯度、时间差异和动态编程方法的稍微不同的意义上，也会发生这种情况。

在本文中，我们探索了RL中函数逼近的另一种方法。我们不是近似值函数并使用它来计算确定性策略，而是直接使用具有自己参数的独立函数逼近器来近似随机策略。例如，策略可以由神经网络表示，其输入是状态的表示，其输出是动作选择概率，并且其权重是策略参数。

策略梯度定理

我们定义 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图1 为当前策略的表现，在无折扣模式下被定义为：

其中。

Sutton 的书中很多算法都是通过 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图4 定义，数学证明中也经常出现这个变量，它表示策略下状态的平稳分布（stationary distribution of states under ），直观的看，它的定义是

首先，这是和初始状态无关的，其次它是基于当前策略的。Markov过程中，当转移概率满足一定的条件，最终状态的分布就会趋向于稳定，这就是Markov过程的平稳分布。

在 MDP 中，状态转移不仅取决于环境，还取决于策略。如果我们假设环境和策略都是固定性的，那么转移概率也就是固定的了，当然我们可以把转移概率看成三阶张量，但其实也可以合并成二阶的矩阵。总之，这个 MDP 对应的平稳分布就是 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图8 。我们可以假设 MDP 在一个有限的常数之前达到收敛，那么接下来就会进入平稳分布，对应的平均累计和就应该是。

基于 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图11 ，我们定义

对于从固定状态开始的 MDP，我们还可以换一种方式定义：
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图14
我们定义为可能遇到的状态的加权和。

在 Policy Gradient 中，我们的目的是让 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图17 尽可能大，假设关于参数可导，那么有

证明见论文附录。

该结论表明 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图21 的梯度不涉及项，而是可以通过蒙特卡洛模拟得到的，这将为策略梯度方法的计算提供了极大的便利。

策略梯度近似

我们再来考虑由函数估计表示的 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图24 ，设函数是的估计，它的参数是。则的更新方向为：

最终的局部最优收敛结果应该满足：
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图30

如果 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图31 已经是精确的估计，也就是已经满足上面的条件，同时，又满足

那么我们很容易得到
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图33

那么马上有
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图34

这样就通过一个对 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图35 的估计函数实现了策略梯度的实际计算。

优势函数

如果我们用类似 softmax 的函数拟合 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图37 ，即

那么根据前面的约束，有

不定积分得到

这意味着对状态的估计是某个特征的线性函数。但是函数的选取则可以是多种多样的，可以采用复杂的非线性形式，只要根据上面的式子重新推导即可。