对价值函数进行近似进而确定策略的方法被证明在理论上是棘手的。这篇文章是直接用一个函数近似来显式地表示策略,而不管价值函数,并根据期望 reward 对策略参数的梯度进行更新。

摘要

函数逼近对强化学习至关重要,但迄今为止,逼近值函数并从中确定策略的标准方法在理论上被证明是难以实现的。 在本文中,我们探索了一种替代方法,其中策略由其自身的函数逼近器明确表示,独立于值函数,并根据与策略参数相关的预期回报的梯度进行更新。 威廉姆斯的REINFORCE方法和actor-critic方法就是这种方法的例子。 我们的主要新结果是,梯度可以被写成一种形式,这种形式适用于由经验估计,辅以近似的行动值或优势函数。 使用此结果,我们证明了第一次使用任意可扩散函数近似的策略迭代版本收敛于局部最优策略。

背景

强化学习(RL)的大型应用需要使用广义函数逼近器,例如神经网络,决策树或基于实例的方法。 过去十年的主导方法是价值函数方法,其中所有函数逼近效应都用于估计价值函数,行动选择策略隐含地表示为关于估计值的“贪婪”策略(例如 ,作为在每个状态选择具有最高估计值的动作的策略)。 价值函数方法在许多应用程序中都运行良好,但有一些局限性。首先,它面向确定性策略,而最优策略通常是随机的,选择具有特定概率的不同动作(例如,参见Singh,Jaakkola和Jordan,1994)。

其次,动作的估计值的任意小的变化可以使其被选择或不被选择。 这种不连续的变化已被确定为遵循价值函数方法建立算法收敛保证的关键障碍(Bertsekas和Tsitsiklis,1996)。 例如,Q-learning,Sarsa和动态编程方法都显示出无法收敛到简单MDP和简单函数逼近器的任何策略(Gordon,1995,1996; Baird,1995; Tsitsiklis和van Roy,1996; Bertsekas和 Tsitsiklis,1996)。 即使在改变策略之前的每一步都找到了最佳逼近,并且“最佳”的概念是在均方误差意义上,还是在残差双梯度、时间差异和动态编程方法的稍微不同的意义上,也会发生这种情况。

在本文中,我们探索了RL中函数逼近的另一种方法。 我们不是近似值函数并使用它来计算确定性策略,而是直接使用具有自己参数的独立函数逼近器来近似随机策略。 例如,策略可以由神经网络表示,其输入是状态的表示,其输出是动作选择概率,并且其权重是策略参数。

策略梯度定理

我们定义 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图1 为当前策略的表现,在无折扣模式下被定义为:
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图2
其中📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图3

Sutton 的书中很多算法都是通过📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图4定义,数学证明中也经常出现这个变量,它表示策略 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图5 下状态的平稳分布(stationary distribution of states under 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图6),直观的看,它的定义是
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图7
首先,这是和初始状态无关的,其次它是基于当前策略的。Markov过程中,当转移概率满足一定的条件,最终状态的分布就会趋向于稳定,这就是Markov过程的平稳分布。

在 MDP 中,状态转移不仅取决于环境,还取决于策略。如果我们假设环境和策略都是固定性的,那么转移概率也就是固定的了,当然我们可以把转移概率看成三阶张量,但其实也可以合并成二阶的矩阵。总之,这个 MDP 对应的平稳分布就是 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图8。我们可以假设 MDP 在一个有限的常数 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图9 之前达到收敛,那么接下来就会进入平稳分布,对应的平均累计和就应该是📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图10

基于 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图11,我们定义 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图12
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图13

对于从固定状态开始的 MDP,我们还可以换一种方式定义:
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图14
我们定义 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图15 为可能遇到的状态的加权和📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图16

在 Policy Gradient 中,我们的目的是让 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图17 尽可能大,假设 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图18 关于参数 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图19 可导,那么有
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图20
证明见论文附录。

该结论表明 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图21 的梯度不涉及 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图22 项,而 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图23 是可以通过蒙特卡洛模拟得到的,这将为策略梯度方法的计算提供了极大的便利。

策略梯度近似

我们再来考虑由函数估计表示的 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图24 ,设函数 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图25📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图26 的估计,它的参数是 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图27。则 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图28 的更新方向为:
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图29

最终的局部最优收敛结果应该满足:
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图30

如果 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图31 已经是精确的估计,也就是已经满足上面的条件,同时,又满足
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图32

那么我们很容易得到
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图33

那么马上有
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图34

这样就通过一个对 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图35 的估计函数 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图36 实现了策略梯度的实际计算。

优势函数

如果我们用类似 softmax 的函数拟合 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图37,即
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图38
那么根据前面的约束,有
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图39
不定积分得到
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图40
这意味着对状态的估计 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图41 是某个特征的线性函数。但是 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图42 函数的选取则可以是多种多样的,可以采用复杂的非线性形式,只要根据上面的式子重新推导即可。

同时,我们注意到 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图43 满足
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图44
这意味着 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图45 可能不再是最好的选择,我们应该使用优势函数 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图46
当然,令 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图47,上面的等式依然是成立的。

我们已知当 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图48📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图49 的函数估计的时候
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图50 成立。
因为 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图51 ,则 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图52,于是 📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图53
所以
📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图54

策略迭代近似函数的收敛性

📝[PG]Policy gradient methods for reinforcement learning with function approximation - 图55

参考

  1. 【DRL-11】Policy Gradient
  2. 文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

About

[PDF]