本文针对第一版的 SAC 算法做了进一步的优化,其主要差别是引入了 temperature α 自动调整,在原来算法中,给了一个依赖先验的固定参数作为 entropy 的权重,因为 reward 的不断变化,采用固定的 α 显然是不合理的,会让整个训练不稳定,因此自动化的调整参数非常重要。

摘要

算法

image.png
image.png
📝[SAC2]Soft Actor-Critic Algorithms and Applications - 图3

参考

  1. [RL]强化学习Soft Actor-Critic论文笔记
  2. 最前沿:深度解读Soft Actor-Critic 算法
  3. 详解soft actor-critic

About

[PDF]
[Code]