RS_DRL

浏览 180 扫码分享 2023-11-23 22:26:53

背景
架构
案例
- slateQ
- choc VS. Kale">choc VS. Kale

背景

CIRs：协同交互推荐，注重交互，如利用点击序列，更能满足用户需求
RL：强化学习能支持序列决策问题
RL与CIRs结合的最主要的挑战是：缺乏对于序列推荐的仿真平台
RᴇᴄSɪᴍ可以

促进推荐系统和强化学习之间的交叉研究；
鼓励算法模型的共享和可复制；
帮助使用强化学习推荐引擎的用户可以在非实际环境下，快速地测试和调整算法模型；
通过仿真的用户行为模型，在没有泄露用户数据和行业敏感策略的情况下，充当学术和产业合作的资源。
架构
agent
simulation environments
案例
slateQ
https://zhuanlan.zhihu.com/p/152068715?from_voters_page=true
https://blog.csdn.net/zackerzhuang/article/details/100978955
choc VS. Kale

提高item候选
用户上次选择+item特征=》本次推荐结果
用户响应
- 不点击也是选择，会导致用户状态转移
- 选择要包括扰动
- 选择能反应用户的隐含兴趣

采样器用于初始化，之后用户的状态要依据状态转移概率
选择之后及时更新用户特征
用户的响应也是依据一定的规则，某种分布

模拟的样本是否能反应用户的真实情况，现实变量太多，加随机扰动就可以吗？
————————————-
设置item特征
设置user特征
设置激励函数
设置响应策略
+方便强化学习使用

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录