背景
CIRs:协同交互推荐,注重交互,如利用点击序列,更能满足用户需求
RL:强化学习能支持序列决策问题
RL与CIRs结合的最主要的挑战是:缺乏对于序列推荐的仿真平台
RᴇᴄSɪᴍ可以
- 促进推荐系统和强化学习之间的交叉研究;
- 鼓励算法模型的共享和可复制;
- 帮助使用强化学习推荐引擎的用户可以在非实际环境下,快速地测试和调整算法模型;
- 通过仿真的用户行为模型,在没有泄露用户数据和行业敏感策略的情况下,充当学术和产业合作的资源。
架构
agent
simulation environments案例
slateQ
https://zhuanlan.zhihu.com/p/152068715?from_voters_page=true
https://blog.csdn.net/zackerzhuang/article/details/100978955choc VS. Kale
- 提高item候选
- 用户上次选择+item特征=》本次推荐结果
用户响应
- 不点击也是选择,会导致用户状态转移
- 选择要包括扰动
- 选择能反应用户的隐含兴趣
采样器用于初始化,之后用户的状态要依据状态转移概率
选择之后及时更新用户特征
用户的响应也是依据一定的规则,某种分布
模拟的样本是否能反应用户的真实情况,现实变量太多,加随机扰动就可以吗?
————————————-
设置item特征
设置user特征
设置激励函数
设置响应策略
+方便强化学习使用
