推荐系统的特征工程

https://www.yuque.com/zhang00/xqzytl/yu1lsv
image.png

推荐系统召回层的主要策略

推荐系统拆分为召回层和排序层的原因是基于工程的考虑。

  • 召回层:待计算的集合大,速度快,模型简单,特征少,尽量让用户感兴趣的物品在这个阶段被召回
  • 排序层:处理的物品数少,可利用的特征多,使用较复杂的模型

召回策略

  • 多路召回
    • 采用不同的策略/特征/模型,分别召回一部分候选集合,然后把召回的集合混合到一起共后续排序模型使用;
    • 召回策略与业务强相关;
    • 每一路召回K个商品,K是超参,需要通过评估和实验来确定;
    • 每一路召回的得分没有可比性。
  • embedding召回
    • 多路召回中使用的信息可以在计算embedding的时候融合进去(比如EGES embedding 方法)相当于在用embedding召回的过程中考虑了多路召回的策略;
    • embedding召回计算的评分只有一个,在选择k的时候不需要评估多路召回的结果。

      推荐系统的实时性

      推荐系统实时性重要性体现在:
  1. 推荐系统的更新速度越快,代表用户的特征更新越快,越能为用户进行有效推荐 -> 特征的实时性
  2. 推荐系统更新得越快,模型越容易发现流行趋势 ->模型的实时性

实际迭代改进中需要参考“木桶理论”,找到拖慢系统实时性的最主要的环节进行改进。
image.png
image.png