参考

算法亮点

  • 目前最好的用户行为建模方法,能够建模的行为数据长度从MIMN的1000提高到54000,实际上基本不受限制。
  • 在General Search Unit阶段,根据当前ad从历史行为中查找最相似的前topK结果。
  • 在Exact Search Unit阶段,用到了multi-head attention。具体用法?
  • 考虑了时间间隔的影响,学习到了时间间隔△T的embedding。不同时间间隔如1s、1天、2周、半年等对应不同的embedding。线上预测的时候,时间间隔多大,就取对应的训练好的embedding。

工程亮点

  • GSU具体实现时,可以将用户历史行为数据存储为树状结构key-key-value。第1个key为用户id,第2个key为一系列的category ids, 第3个value为具体的历史行为记录。
  • multi-head attention可以通过deep kernel fusion技术优化。

改进想法

  • 时间间隔△T的embedding部分感觉还能优化。时间间隔向量te应该和用户行为向量be是相乘的关系,拼接应该不是最好方式。te应该满足指数衰减趋势。