GNN

GCN

利用『边的信息』对『节点信息』进行『聚合』从而生成新的『节点表示』

  • 频域
  • 空域->GraphSAGE

    image.png

    why GLRS

  • 图网络有效果:邻域信息的加持, 比之前node2vec,感受野更大

    • 新用户/item有关系就有embedding,冷启动友好;解决稀疏问题等
  • 推荐系统本身是个图

    GLRS分类

  • u-i

    • 一般
    • 时序
  • side-info
    • user-side
      • 社交网络
    • item-ide
      • 异构信息
      • 知识图谱

image.png

image.png

挑战

G-explict(二部图):it is challenging how to effectively and efficiently propagate the information between users or items
Side-Hete:enabling information propagation among differ- ent types of nodes, and better coping with the mentioned data sparsity problem. However, it is challenging to selectively aggregate those useful attribute information to improve the recommendation performance.

GLRS-instance

image.png

Uber eat

首次实践,有较大提升
关键词:graphsage、UI二部图、两阶段、emb特征、marge loss
步骤:

  • 构造u-dish、u-res 的二部图,使用经典GCN表示节点信息(GRAPHSAGE)
  • 采用marge loss学习二部图信息,得到u和i的emb, 异构信息映射到同空间;边加权;low-rank-loss
  • u和i的embedding 计算cos,作为特征加入到CTR model中,效果很好

表示学习,不存在露label的问题

PinSAGE

GCN 在工业级推荐系统上的首次成功运用
关键词:graphsage,召回,偏实践
重点:

  • neighbor sampling(Random Walk 找出目标节点的重要邻居, 聚合重要邻居信息) -> mini-batch
  • Margin Hinge Loss,负采样hard negative sampling

代码理解

PinnerSAGE

  • 如何用PinSAGE已经学习好的item embedding,生成user embedding,完成user2item召回

问题:召回阶段,i太多,性能下降
步骤:
i-embedding 聚类,簇内选择一个作为代表,簇(考虑时间衰减)加重要性权重,top3再检索,保证多样性

LightGCN

图算法设计pipeline

  1. 构图 (显式VS隐式)
  2. 特点 (边权重、有向、特征序列、点类型、量级)
  3. loss设计
    1. 节点分类回归聚类、边预测分类、子图级别的分类回归聚类
    2. 监督、半监督、无监督
  4. 如何聚合效果好:采取哪种聚合方式、池化、采样、小技巧

idea

  • graphsage
  • 异构图与现有ctr模型(deepFM\DIEN…)结合:目前纯图效果往往一般
  • 如何加入多任务、元学习

参考

IJCAI_21_Survey_Paper_v4_2__Camera_Ready_0507.pdf