关于推荐系统中bias 和 debias的综述。
推荐系统中四大bias: selection bias, position bias, exposure bias,popularity bias.
为什么推荐系统会有bias?
1) 我们收集到的用户行为是对用户的观察(普遍情况是用户的隐式反馈),天然存在噪声。
2) item天然不平等,有些item就是会更受欢迎(在一段时间内得到更好的后验数据),模型在训练时会偏向于这类item(学得更准)。
3) 推荐系统本身是一个闭环,其曝光机制决定了用户行为,而用户行为又反过来作用于推荐模型,影响推荐结果(即曝光机制。)这样的闭环很容易导致马太效应。
| bias类型 | 原因 | 影响 | 解决方案 |
|---|---|---|---|
| selection bias | 用户偏好 | 数据长尾分布 | 数据截断; propensity score修正 joint generative model doubly robust model |
| exposure bias | item热度带来的曝光偏置 | 没有被曝光的item不一定是负样本。 大量item不能得到有效曝光 |
propensity score; causality-based model |
