📝[SAC2]Soft Actor-Critic Algorithms and Applications

浏览 263 扫码分享 2023-11-24 00:16:06

本文针对第一版的 SAC 算法做了进一步的优化，其主要差别是引入了 temperature α 自动调整，在原来算法中，给了一个依赖先验的固定参数作为 entropy 的权重，因为 reward 的不断变化，采用固定的 α 显然是不合理的，会让整个训练不稳定，因此自动化的调整参数非常重要。

摘要

📝[SAC2]Soft Actor-Critic Algorithms and Applications - 图3

若有收获，就点个赞吧

让时间为你证明