背景

CIRs:协同交互推荐,注重交互,如利用点击序列,更能满足用户需求
RL:强化学习能支持序列决策问题
RL与CIRs结合的最主要的挑战是:缺乏对于序列推荐的仿真平台
RᴇᴄSɪᴍ可以

  1. 提高item候选
  2. 用户上次选择+item特征=》本次推荐结果
  3. 用户响应

    • 不点击也是选择,会导致用户状态转移
    • 选择要包括扰动
    • 选择能反应用户的隐含兴趣

采样器用于初始化,之后用户的状态要依据状态转移概率
选择之后及时更新用户特征
用户的响应也是依据一定的规则,某种分布

模拟的样本是否能反应用户的真实情况,现实变量太多,加随机扰动就可以吗?
————————————-
设置item特征
设置user特征
设置激励函数
设置响应策略
+方便强化学习使用