摘要算法参考About本文针对第一版的 SAC 算法做了进一步的优化,其主要差别是引入了 temperature α 自动调整,在原来算法中,给了一个依赖先验的固定参数作为 entropy 的权重,因为 reward 的不断变化,采用固定的 α 显然是不合理的,会让整个训练不稳定,因此自动化的调整参数非常重要。 摘要 算法 参考 [RL]强化学习Soft Actor-Critic论文笔记最前沿:深度解读Soft Actor-Critic 算法详解soft actor-critic About[PDF][Code]