STAM: A Spatiotemporal Aggregation Method for Graph Neural Network-based Recommendation
- Zhen Yang, Ming Ding, Bin Xu, et al. STAM: A Spatiotemporal Aggregation Method for Graph Neural Network-based Recommendation[C]. In WWW 2022.
清华大学、阿里巴巴 截稿日期:2021-10-21 通知日期:2022-01-13 会议日期:2022-04-25
摘要(Abstract)
基于图神经网络的推荐系统正在蓬勃发展,其核心是确定邻域嵌入学习的聚合方法。现有技术通常侧重于如何从空间结构信息的角度来聚合信息,但是关于邻居的时间信息的挖掘还不够充分。<br /> 在这项工作中,我们提出了一种时空聚合方法STAM,将时间信息有效地整合到邻居嵌入学习中。STAM从空间结构信息和时间信息的角度生成时空邻域嵌入,促进了从空间到时空聚合方法的发展。STAM利用缩放的点积注意来捕获一跳邻居的时间顺序,并使用多头注意力来在不同的潜在子空间上执行联合注意力。我们利用基于GNN推荐的STAM来学习用户和项目嵌入。大量的实验表明,与基于空间的聚合方法相比,STAM在基于GNN的推荐上有显著的改进,例如,在方面,MovieLens提高了24%,Amazon提高了8%,Taobao提高了13%。有关代码访问[Https://github.com/zyang-16/STAM](Https://github.com/zyang-16/STAM)
关键词(Keywords)
1 引言(Introduction)
推荐系统是进行个性化信息过滤的关键工具[6,56],已被应用于许多在线服务。推荐的本质是从过去的用户-项目交互中学习用户和项目的潜在表征,并预测用户未来与之交互的项目。大多数工作都将推荐作为矩阵补全任务[25]。协同过滤(CF)[37,38]是一种传统的推荐方法,用于预测用户和项目之间的分数。矩阵分解(MF)[9,32]学习用户和项目的潜在向量来重构交互矩阵。由于深度学习的成功,最近的工作使用神经网络[8,21],如多层感知机(MLP),来捕获用户与物品之间的非线性交互[18]。近年来,图神经网络(GNN)引起了人们的极大兴趣[14,24,44],其信息传播机制改善了下游任务,在许多具有挑战性的任务中显示出了良好的前景。<br /> 由于图神经网络在学习图数据方面的优势,基于GNN的推荐[1,17,48,56]将用户与项目的交互建模为图,并利用GNN将空间结构信息合并到嵌入中。大量的基于GNN的推荐工作从空间结构信息的角度研究了良好的聚合方法来学习用户和项目的嵌入。现有的聚合方法大致分为四类[52]:(1)“平均池化”平等地对待邻居;(2)“度归一化”基于图结构给节点分配权重;(3)“注意力池化”利用注意力机制区分邻居的重要性;(4)“中心节点增强”考虑节点之间的亲和力,利用中心节点过滤邻居的消息。然而,上述方法忽略了邻居的时间信息,而邻居的时间信息在基于GNN的推荐中对聚合有重要贡献,但在邻居嵌入学习中没有编码。<br /> 在之前基于GNN的推荐[1,17,48,56]中,邻居聚合方法只涉及空间结构信息,而忽略了邻居的时间信息,无法捕捉用户的动态兴趣。电子商务平台的基本能力是收集丰富的用户行为历史和时间信息。然而,以往的基于GNN推荐的聚合方法还没有充分利用这些时间信息来学习高质量的嵌入信息,而只是展示了用户的内在兴趣。为了解决上述问题,我们将时间信息融入到聚合方法中,以促进聚合从空间向时空的发展。<br /> 为了充分理解这项工作的动机,我们给出了一个STAM的例子来说明时间信息在基于GNN的推荐中的重要作用。在图1中,我们从用户的行为历史中选择两个用户(Amy和Sherry),分别为基于GNN的推荐构建用户-项目二部图和时间-顺序图。在基于空间的聚合中,Amy和Sherry的聚合邻居嵌入是相同的,因为它们与相同的项目交互。与LightGCN类似,我们省略了非线性变换,并利用聚合邻居嵌入作为一跳用户嵌入。因此,推荐在基于空间的聚合中为Amy和Sherry推荐相同的项目。但是,在基于时空的聚合中,为Amy和Sherry推荐的项目是不同的。在基于时空的聚合中,我们将时间信息融入到邻居嵌入学习中,其中时间顺序在捕捉用户的动态兴趣和用户群随时间变化方面起着至关重要的作用。<br /><br />图1 STAM的一个鼓舞人心的例子,说明了时间信息对于邻居聚合的重要性。<br /> 在这项工作中,我们突出了在基于GNN的推荐中仍然没有将时间信息用于邻居聚合的问题。我们提出了一种新的聚合方法--时空聚合方法(STAM),将时间信息集成到邻居嵌入学习中,而不是直接从空间结构聚合邻居信息,推动了聚合方法从空间向时空的发展。STAM从空间结构和时间顺序的角度生成时空邻居嵌入。在STAM算法中,缩放的点积注意力被用于捕获一跳邻居的时间顺序。为了进一步提高STAM的表现力,我们学习了STAM中的多头注意力,它对不同的潜在子空间进行联合注意。<br /> STAM不能改变基于GNN的推荐框架,它可以自然地嵌入到现有的基于GNN的推荐模型中。我们将STAM应用于基于GNN的推荐,并将其性能与典型的基于GNN的和序列的推荐模型进行比较。实验结果表明,在MRR@20方面,STAM优于最先进的基线,比如MovieLens的平均相对增长率为24%,Amazon的平均相对增长率为8%,Taobao的平均相对增长率为13%,表明了时间信息对聚合方法的重要性。此外,我们还与五种有代表性的聚合方法(四种基于空间的聚合和一种BiLSTM聚合)进行了对比实验,以验证STAM的有效性。<br />综上所述,这项工作的主要贡献如下:
在基于GNN的推荐中,我们强调了时间信息对邻居聚合的重要性,促进了聚合方法从空间到时空的发展。
- 我们提出了一种新的聚合方法STAM,将时间信息融入到邻居嵌入学习中,该方法可以自然地插入到现有的基于GNN的推荐模型中。
我们进行了大量的实验来证明STAM比基于空间的聚合方法的优越性。
2 预备知识和问题(Preliminaries and Problem)
在这一部分中,我们首先回顾了基于GNN的推荐框架。然后,我们给出了详细的问题陈述,它涉及带有时间信息的聚合方法。
2.1 基于GNN的推荐(GNN-based recommendation)
2.1.1 嵌入层(Embedding Layer)
基于GNN的推荐模型maintain一个项目嵌入矩阵和一个用户嵌入矩阵,将one-hot表示映射到低维表示,其中和表示用户节点和项目节点的数量。对于任何用户(项目),执行查找操作以获得嵌入向量,其中表示嵌入大小。这样的用户和项目嵌入矩阵用作初始状态,并且将通过聚合和传播来更新。
2.1.2 嵌入聚合层(Embedding Aggregation Layer)
嵌入聚合层负责收集和聚合邻居的信息,这是基于GNN的推荐[17,48,56]的重要组成部分。在用户-项目图中,有两种类型的聚合操作:项目聚合和用户聚合:<br /> (1)<br />其中是用户和项目的初始嵌入,表示与用户(或在用户-项目图中的邻居)交互的项目集,表示已与项目(或的邻居)交互的用户集。是用户/项目的聚合邻居嵌入。是聚合函数。
2.1.3 嵌入传播层(Embedding Propagation Layer)
为了捕获用户和项目之间的高阶交互,多个传播层被堆叠以传播用户-项目图中的嵌入。设和分别表示用户和项目在第传播层的嵌入。之后,第层的嵌入依赖于两个步骤:聚合操作,将第层的邻居嵌入聚合到固定长度的嵌入向量中;更新步骤,将聚合的邻居嵌入和自身在第层的嵌入向量作为输入,并利用更新函数来获得第层的嵌入。从数学上讲,上述两个步骤可以定义为:<br /> (2)<br /> 类似地,嵌入在第层处的项目也通过上述两个步骤进行更新。
2.1.4 预测层(Prediction Layer)
通过层传播,每个用户/项目收集多个表示。嵌入的最终用户/项目由融合函数计算,该融合函数可表示为:<br /> (3)<br /> 有些作品直接使用最后一层中的嵌入作为最终的嵌入[50],而另一些作品则将所有层的嵌入与连接[48]或加权合并操作[17]集成在一起。<br /> 此后,应用内积来估计用户对目标项目的偏好:<br /> (4)<br /> 请注意,内积也用作推荐的相似性分数,以检索Top-K候选项目。
2.1.5 联合训练(Joint Training)
给定具有嵌入向量的训练样本,用户和相互作用的项目的可能性可以表示为:<br /> (5)<br /> 其中,表示所有项目的集合,是包含尚未与用户交互的项目的项目集,表示用户未与其交互的negative item。<br /> 基于GNN的推荐的损失函数是最小化以下负对数似然:<br /> (6)<br />其中表示所有用户-项目交互,即用户-项目图中所有观察到的边。<br /> 然而,等式(5)的求和运算符在计算上是昂贵的。负采样作为处理这一问题的临界点,加快了训练进程。负采样通常将损失函数简化为:<br /> (7)<br />其中表示在一些先进工作[46,55,58]中提出的负采样策略,采样的负项目数远远少于总项目数。
2.2 问题陈述(Problem Statement)
基于GNN的推荐将用户和项目之间的交互转化为二部图,并利用图学习方法来获得用户/项目嵌入。聚合方法在基于GNN的推荐的信息传播机制中起着决定性的作用。然而,以往的工作只关注从空间结构信息的角度聚合邻居信息,而忽略了时间信息。<br /> 因此,我们从用户的行为历史中收集时间信息,并建立用户的时序和特定用户-项目对的项目的时序,其中是一跳邻居的数量,并且记录第个交互的项目/用户。在本文中,我们通过利用这些时间信息来改进现有的聚合方法,促进了聚合方法从空间向时空的发展。
3 方法(Method)
STAM是一种通用的聚合方法,它将时间信息融入到邻居嵌入学习中,可以自然地插入到现有的基于GNN的推荐模型中。STAM不是从空间结构上聚合邻居信息,而是同时从一跳邻居的空间结构和时间顺序的角度聚合邻居信息。<br /> 在这一部分中,我们首先提出了STAM,通过利用时间信息来学习每个用户-项目对的时空邻居嵌入。然后,我们利用基于GNN的STAM推荐来学习针对用户和项目的高质量嵌入。在此基础上,论证了负采样STAM的最优化问题。最后,对STAM与前人相关工作的关系进行了模型分析,并对STAM的时间复杂度进行了分析。
3.1 STAM
图2 STAM的整体架构
为了将时间信息融入基于GNN的推荐模型的聚合方法中,我们设计了一种新的用于邻居嵌入学习的时空聚合方法(STAM)。图2描述了STAM的总体架构,它以时序和
为输入,输出从一跳邻居生成的时空邻居嵌入。具体地,我们首先从每个用户-项目对
的连通的一跳邻居构造两个关键的时间顺序,包括用户的时间顺序
和项目的时间顺序
,其中
是时间顺序的长度。然后,执行查找操作以获得每个时间顺序的初始嵌入,即,时间顺序嵌入
和
,
具有维度
。请注意,初始嵌入
和
是从第2.1节提到的嵌入层获得的。
STAM的首要目标是从每个用户-项目对的一跳邻居处学习时空邻居嵌入。为了实现这一目标,我们利用已成为序列建模的关键部分的按比例的点积注意力[43],将queries
、keys
和values
作为输入表示。queries、keys和values分别通过线性投影矩阵
、
和
投影到不同的空间。此外,我们还使用位置编码[10]将时间信息编码到缩放点积注意中,即时间顺序
和
分别具有绝对时间位置嵌入
和
,其中
表示位置
处的位置向量。将时间位置嵌入
与时间顺序嵌入
相结合,分别得到用户和项目的时间输入嵌入
和
。这里,我们将时间输入嵌入
一起打包成矩阵
和
,作为输入被馈送给STAM进行时空邻居嵌入学习。因此,以用户的时间顺序
为例,缩放的点积注意力函数表示为:
(8)
其中,是时间输入嵌入矩阵,
表示一跳邻居的输出嵌入矩阵,
、
和
是应用于每个用户-项目对
的共享权重转换。
类似地,项目的时间顺序的输出嵌入矩阵
可以表示为:
(9)
为了进一步提高STAM的表达能力,我们采用多头注意力来代替单一的注意函数,从不同的潜在视角捕获时间信息。在前人的工作[7,27,43]中已经应用了多头注意力,共同注意来自不同表征子空间的信息。这样的注意技术被广泛用于通过利用多个独立的注意头来改善注意力机制的多样性,所述多个独立注意头与不同的、可学习的线性投影矩阵一起对输入嵌入进行操作。此外,多头注意还促进了STAM的能力和稳定性。具体地说,多头注意力首先利用各种线性投影矩阵将时间输入嵌入投影到
子空间,然后并行使用
缩放的点积注意力函数来生成一跳邻居的输出嵌入矩阵。这些嵌入矩阵可以连接(concatenated)以产生组合的相邻嵌入矩阵。最后,我们应用前馈神经网络进行维度变换。中心用户
和中心项目
的时空邻居嵌入可以计算为:
(10)
其中和
表示多头注意产生的时空邻居嵌入,
表示来自第
个缩放的点积注意函数的一跳邻域的输出嵌入矩阵。
可以表示为
,其中
和
是可训练的参数。注意,时空邻居嵌入也可以以时间顺序的形式表示,例如
和
。
此后,我们从上述时空邻居嵌入计算聚合邻居嵌入。这里,我们简单地利用平均池化操作来聚合时空邻居嵌入。在我们的实验中,我们发现时空邻居嵌入的平均池化带来了良好的性能。用于中心用户/项目的嵌入的聚合邻居可以被表示为:
(11)
3.2 基于GNN的STAM推荐(STAM for GNN-based Recommendation)
在3.1节中,我们设计了一种时空聚合方法(STAM),从空间结构和时间顺序的角度同时学习邻居嵌入。在这里,我们利用所提出的基于GNN的STAM推荐来学习用户和项目嵌入。与2.1节中详细描述的许多现有的基于GNN的推荐模型一样,我们还堆叠了多个STAM来捕获用户-项目二分图中的高阶交互。类似于LightGCN,一个基于GNN的推荐模型,我们也省略了非线性变换和聚合时空邻居嵌入作为中心节点嵌入。<br /> 然而,当从一跳邻居逐层传播时空邻居嵌入时,上述STAM将遭受指数级增加的存储消耗。这里,我们从时空邻居嵌入中学习时空注意权重矩阵,并将其整合到邻接矩阵。在数学上,时空传播层的矩阵形式可以表示为:<br /> (12)<br />其中是第层的中心嵌入,⊙表示逐元素乘积,表示对角矩阵,其中每一项表示邻接矩阵的第行向量中非零项的个数。<br /> 中心用户和项目的最终嵌入可以通过加权池化操作来计算。具体地说,池化函数用于通过在传播的层上操作来生成最终的用户/项目嵌入:<br /> (13)<br />其中表示第层表示在构成最终嵌入中的重要性。与LightGCN[17]类似,我们将统一设置为,因为这项工作的重点不在的选择上。
3.3 STAM优化(Optimization with STAM)
为了优化STAM的参数,我们使用广泛采用的BPR损失[34]:<br /> (14)<br />其中是Sigmoid函数,是可训练参数,控制正则化强度,代表负采样策略。
3.4 模型分析(Model Analysis)
在这项工作中,我们提出STAM通过整合时间信息来聚合一跳邻居,并堆叠多个STAM来捕获基于GNN推荐的用户-项目图中的高阶交互。通过替换默认的聚合方法,STAM可以直接插入到现有的基于GNN的推荐模型中。在这里,我们介绍了STAM与以往相关作品的联系和区别。
STAM vs LightGCN。LightGCN[17]是最近提出的一种具有代表性的图卷积网络推荐模型,它通过线性聚合用户-项目交互图中的邻居来学习用户和项目嵌入。STAM和LightGCN都致力于为基于GNN的推荐学习细粒度的用户和项目嵌入。与仅捕获空间结构信息的LightGCN不同,我们支持通过利用STAM同时捕获空间和时间信息。
- STAM vs SASRec。SASRec[22]是Transformer[43]的最新变体,它使用一组可训练的位置嵌入来对序列推荐的项目顺序进行编码。虽然STAM和SASRec都使用时间信息来学习用户和项目嵌入,但推荐类型不同。与SASRec的序列推荐不同,STAM侧重于基于GNN的推荐。此外,SASRec中的项目嵌入是通过嵌入的查找表执行的,而STAM中的项目嵌入是通过时空聚合方法迭代学习的。
- STAM vs BERT4Rec。BERT4Rec[40]是一个序列推荐模型,它使用深度双向自注意来建模用户行为序列。尽管STAM和BERT4Rec都使用缩放点积注意力来建模时间信息,但STAM的重点是通过从空间结构和时间顺序的角度同时聚合一跳邻居的信息来改进聚合方法。不同的目标决定了不同的训练方法。BERT4Rec使用完形填空来预测掩蔽项,而STAM直接对采样的训练对进行BPR损失。
STAM vs DySAT。DySAT[36]是一种用于捕捉动态图结构演化的新型神经体系结构。DySAT将动态图结构建模为一系列图快照。然而,STAM中的时间信息是通过用户的行为历史来收集的。与DySAT通过堆叠结构和时间自注意层来计算节点表示不同,STAM利用所提出的时空聚合方法从空间结构和时间顺序的角度同时学习时空邻居嵌入。
3.5 时间复杂度(Time Complexity)
与现有的许多基于GNN的推荐模型一样,对用户-项目图的时空聚合操作是主要的时间开销。由于STAM中使用的多头注意是可并行的,因此头的STAM的时间复杂度可以表示为,其中是时间输入的长度。
4 实验(Experiments)
在这一节中,我们给出了详细的实验设置和相应的实验结果,将STAM插入到基于GNN的推荐中,并与最新的推荐模型进行了比较。然后,我们进行了消融研究,特别是与以前的基于空间的聚合方法进行了比较。最后,我们分析了超参数的影响。
4.1 实验设置(Experimental Setups)
4.1.1 数据集(Datasets)
我们在从不同密度的真实平台上收集的三个广泛使用的数据集上进行了实验。表1显示了所有数据集的统计数据。有关数据集的介绍载于附录A.1。此外,我们还在附录A.2中描述了STAM的数据集拆分方法。<br />**表1 实验数据集的统计**<br />
4.1.2 评估指标(Evaluation Metrics)
我们使用Mean Reciprocal Rank (MRR)、Normalized Discounted Cumulative Gain (NDCG)和Hit Ratio (HR)对所有模型进行评估,这些都是在top-K推荐中广泛使用的评估指标[18,54]。我们报告测试集中所有用户的平均指标,并通过对用户未交互的所有项目进行排名来计算指标。在我们的实验中,推荐列表K的长度被设置为20和50。详细的评估方案见附录A.3。
4.1.3 基线(Baselines)
为了验证STAM的有效性,我们将STAM用于基于GNN的推荐,并对不同的推荐模型进行了对比实验,包括传统的(MostPopular,BPRMF)、基于神经网络的(NeuMF)和基于GNN的(GC-MC、PinSage、NGCF和LightGCN)。此外,我们还与GRU4Rec、CASER、SASRec和BERT4Rec四种典型的序列推荐模型进行了比较,对STAM的性能进行了评估。附录A.4提供了每个基线的详细描述。
4.2 性能比较(Performance Comparison)
4.2.1 与代表性模型的比较(Comparison with Representative Models)
我们将STAM用于基于GNN的推荐,并将其性能与表2中的三种典型模型进行比较。总的来说,STAM比基线有了显著的改进,这证实了我们的主张,即基于GNN的推荐中时间信息对于邻居聚合的重要性。此外,我们阐述了如下详尽的意见:<br />**表2 STAM和各种基准之间的性能比较**。表中的所有数字都是百分比数字,省略了'%'<br />
传统的推荐模型(MostPop和BPRMF)在所有情况下都表现不佳。与MostPop相比,BPRMF表现出更好的性能。原因是BPRMF利用内积来建模具有潜在特征的用户-项目交互,而MostPop只利用数据集的属性进行推荐。
- 显然,NeuMF在所有数据集上的表现都始终如一地优于传统模型,证明了用户和项目嵌入之间非线性特征交互的重要性。
- 基于GNN的模型利用GNN来学习用户和项目的嵌入,并在大多数情况下实现了优于上述基线的性能。与GC-MC只采用平均池化聚合一阶邻居不同,NGCF和LightGCN通过图结构利用消息传播,在性能上取得了显著的提高。LightGCN的性能优于两种基于GNN的模型,这可能归因于摒弃了非线性变换。PinSage不是在完整的图上操作,而是使用邻域采样来对固定大小的邻居进行采样以进行聚合。这样的采样策略可能会由于牺牲一部分图信息而导致性能下降。
- 与其他没有将时间信息集成到聚合中的基于GNN的推荐模型相比,用于基于GNN的STAM推荐在三个数据集和所有指标上实现了最佳性能。STAM是一种通用的时空聚合方法,可以自然地嵌入到现有的基于GNN的推荐模型中。本文总结了性能提高的原因:(1)引入时间信息从空间结构和时间顺序两个角度同时对邻居嵌入学习进行建模;(2)利用一种强大的注意机制(Scaled Dot-Product Attendence)捕获一跳邻居的时间顺序,并使用多头注意来提高表达能力;(3)通过堆叠多个STAM,使用消息传播机制来捕获高阶用户-项目交互。
如表2所示,根据最强基线的MRR@20指标,基于GNN的STAM推荐在MoiveLens数据集上实现了24.32%的显著性能提升,在Amazon数据集上实现了7.78%的性能提升,在Taobao数据集上实现了12.5%的性能提升。这样的改进使得我们能够将时间信息整合到聚合中,从而为基于GNN的推荐中的用户和项目嵌入学习带来好处。
4.2.2 与序列模型的比较(Comparison with Sequential Models)
在这里,我们还进行了实验,比较了STAM和四个有代表性的序列模型,包括GRU4Rec,Caser,SASRec和BERT4Rec。表3列出了STAM的总体性能和采用的基线,从中我们可以得出以下结论:<br />**表3 序列模型的STAM结果**<br />
SASRec在大多数情况下都优于基于RNN的GRU4Rec模型和基于CNN的CASER模型,这证实了自注意机制在建模时间顺序方面的优越性。通过对BERT4Rec和SASRec的比较,我们发现了双向时间顺序模型的优越性。在STAM中,我们利用缩放的点积注意力来捕获一跳邻居的时间顺序,并从空间结构和时间顺序的角度学习时空邻居嵌入。
根据表3中显示的结果,在大多数情况下,STAM的性能优于最佳基准BERT4Rec,但在某些评估指标上,它的性能不如BERT4Rec。尽管STAM和BERT4Rec都将缩放的点积注意力应用于建模时间信息,但STAM只利用一层注意力来捕获每个传播层的时间信息,而BERT4Rec堆叠了多个注意力层来学习更复杂的项目转换模式。总体而言,STAM的性能要好于BERT4Rec。这种改进可能归功于空间图结构,它可以利用消息传播来传播用户-项目图中的嵌入。
4.3 消融研究(Ablation Study)
我们首先进行消融研究,以验证时间信息在基于GNN的推荐中的关键作用,然后探讨传播层数和输入长度的影响。
4.3.1 STAM vs 以前的聚合方法(STAM vs Previous Aggregation Methods)
为了验证STAM的优越性,我们将STAM与之前的四种典型的基于空间的聚合方法进行了比较,这些方法包括“平均池化”、“注意力池化”、“度归一化”和“中心节点增强”。基于空间的聚合方法的详细说明见附录A.5。具体地说,我们利用STAM进行基于GNN的推荐,并用上述基于空间的聚合方法代替STAM进行对比实验。如图3所示,STAM明显优于所有基于空间的聚合方法,验证了捕获一跳邻居的时间顺序有利于邻居嵌入学习。此外,我们还对STAM和GraphSAGE[14]中提出的LSTM聚合进行了关键的比较。我们采用BiLSTM[12]代替LSTM[13,39]来提高聚合的表达能力。与BiLSTM聚合相比,STAM获得了更好的性能,这表明自注意机制是一种更强大的时间序列学习技术。<br /><br />**图3 STAM和以前的聚合之间的结果**
4.3.2 层数的影响(Impact of Layer Numbers)
为了分析传播层数的影响,我们在{1,2,3,4}的范围内改变传播层数。如表4所示,用于基于GNN的STAM推荐从堆叠多个STAM以传播嵌入在用户-项目图上的时空邻居中受益。与许多基于GNN的推荐模型类似,堆叠过多的STAM也会带来过平滑的问题,即性能随着传播层数的增加而呈现峰值变化。<br />**表4 不同层数STAM效果的比较**<br />
4.3.3 输入长度的影响(Impact of Input Lengths)
我们进行了一个实验来分析输入长度的影响,并在图4中展示了对MRR@20的实验结果。具体来说,我们在范围内搜索,并在实验中保留最佳设置(MovieLens的=200,Amazon的=50,Taobao的=100)。从图4中可以清楚地看到,STAM的性能随输入长度的数量而略有波动。这表明STAM生成的时空邻居嵌入受一跳邻居的时间长度的影响较小。此外,我们观察到适当的输入长度高度依赖于数据集的一跳邻居的平均长度,这使得我们能够根据数据集的属性来设置最优输入长度。<br /><br />**图4 分析输入长度****对插入STAM的基于GNN推荐的影响**
4.4 参数敏感性(Parameter Sensitivity)
为了测试STAM的鲁棒性,我们通过改变两个最重要的超参数来可视化MRR@20曲线:多头注意力的头数和隐藏维度。图5说明了在MovieLens数据集上使用基于GNN的STAM推荐的性能。<br /><br />**图5 STAM在MovieLens数据集上通过改变注意头数和隐藏维度的性能**
4.4.1 多头注意力(Multi-head attention)
为了分析多头注意力的优势,我们在{1,2,4,8,16}的范围内独立地改变注意头的数量。总体而言,STAM在时空邻居嵌入学习中得益于多头注意力。最优性能在4个注意头的情况下稳定下来,这意味着STAM能够从不同的潜在子空间中充分捕获一跳邻居的时间顺序。总体而言,多头注意对STAM的表达能力起到了有益的作用。
4.4.2 隐藏维度
(Hidden Dimensionality
)
我们现在研究隐藏维度对基于GNN的STAM推荐的影响。我们将隐藏维度从16改变到256,同时为了公平起见保持最优超参数不变。明显的观察结果是,随着维度的增加,性能趋于收敛。直观地说,维度越大,性能越好,但维度越大,训练时间越长。因此,我们需要找到一个合适的维度来平衡性能和时间消耗之间的权衡。在我们的实验中,我们将STAM和各种基线的隐藏维度设置为64。
5 相关工作(Related Work)
5.1 基于GNN的推荐(GNN-based Recommendation)
近年来,图神经网络(GNN)在推荐系统中取得了巨大的成功,表现出显著的性能改进,并促进了Web规模的应用。图神经网络能够通过迭代传播来捕捉用户-项目图中的高阶交互。GC-MC[1]将图卷积网络(GCN)[24]应用于用户-项目图,它通过一个卷积层来建模用户和项目之间的直接联系,而没有充分利用通过图结构传递的消息。STAR-GCN[57]堆叠相同的GCN块(即GC-MC),而不是直接堆叠多层GCN,这缓解了过平滑问题,并导致比GC-MC更好的性能。NGCF[48]通过在用户-项目图上传播嵌入来利用用户-项目图的结构,这导致了用户-项目图中高阶连通性的表达建模。最近,SGCN[49]论证了GCN的不必要的复杂性,它通过去除非线性并将多个权重矩阵压缩为一个权重矩阵来简化GCN。受到SGCN设计的启发,LightGCN[17]简化了GCN的设计,使其更简洁,更适合推荐,它通过在用户-项目交互图上线性传播用户和项目嵌入来学习用户和项目嵌入,并使用在所有层学习的嵌入的加权和作为最终嵌入。上述方法在完全图上应用GNN而无需邻域采样,保留了原有的图结构,但由于泛化能力较低而阻碍了网络规模的应用。PinSage[56]结合了基于随机游走的采样策略和图卷积来学习Pinterest图像推荐中项-项图上的嵌入。
5.2 序列推荐(Sequential Recommendation)
顺序推荐捕捉成功项目之间的顺序模式,并推荐用户下一步可能点击的项目[4,20,29,35,40,47]。一些工作采用马尔可夫链(MC)[15,35]来捕获项目到项目的转换,这是基于最近点击的项目反映用户的动态偏好的假设。例如,FPMC[35]融合了MF项和项目-项目过渡项,以分别捕获长期偏好和短期过渡。由于递归神经网络(RNN)在序列建模方面的优势,一些工作使用RNN来对用户序列模式进行建模[19,20,41]。GRU4Rec[20]利用门控循环单元(GRU)[5]来为基于会话的推荐建模点击序列。此外,基于CNN的Caser[42]方法利用最近项目的嵌入矩阵上的卷积运算来捕获高阶马尔可夫链。最近,一种新的序列模型Transformer在NLP任务上获得了最先进的性能[43],其提出的注意机制为序列推荐提供了一种新的方法[26,28]。SASRec[22]使用自注意技术对序列模式进行建模,并捕获长期语义。BERT4Rec[40]使用深度双向序列模型进行序列推荐。此外,一些研究试图通过连续的用户交互来推断动态的用户偏好[2,30,33,45]。随着GNNs的出现,一些工作将序列数据转换为序列图,并在序列图上进行消息传播来建模动态用户偏好[3,51,53]。
6 讨论(Conclusion)
在本文中,我们提出了一种通用的时空聚合方法STAM来学习时空邻居嵌入,用于邻居嵌入学习。具体地说,STAM利用缩放的点积注意力来捕获一跳邻居的时间顺序,并使用多头注意来在不同的潜在子空间上执行联合注意力。我们为基于GNN的推荐堆叠了多个STAM来学习用户和项目嵌入,其中STAM不改变基于GNN的推荐的框架。在三个广泛使用的数据集上的实验结果表明,与基于空间的聚合方法相比,STAM在基于GNN的推荐上有显著的改进,可以嵌入到基于GNN的推荐中。
A 附录(Appendix)
在附录中,我们首先报告STAM的实施说明。然后,我们详细介绍了数据集、数据集拆分和评估指标。接下来,提供对每条基线的详细描述。最后,我们介绍了五种有代表性的聚合方法,包括五种基于空间的聚合和一种BiLSTM聚合。<br />**实施细节(Implementation Details)**<br /> 通过在所有数据集上进行广泛的网格搜索来优化参数,并应用提前停止来通过验证集上的MRR@20分数来选择最佳模型。对于所有模型,我们使用学习率=0.001的Adam优化[23]进行训练。用户和项目的嵌入维度设置为64,以实现性能和时间消耗之间的权衡,在范围内网格搜索确定。MoiveLens和Amazon数据集以及Taobao数据集的批量大小分别设置为1024和2048。BiLSTM的隐藏单元数设置为32。对于STAM,我们将注意头数设置为=4。正则化系数在中搜索。我们使用Xavier初始化器[11]来初始化模型参数。具有固定邻居数量的两个聚合层被应用于PinSage,并且对于NGCF和LightGCN,传播层数被设置为3。在PinSage中,两个传播层的邻居数分别设置为25和10。LightGCN的层组合系数统一设置为,其中是传播层数。
A.1 数据集(Datasets)
我们使用三个公开可用的数据集来评估我们提出的STAM,详细描述如下所示。
MovieLens是一个广泛使用的公共电影评分数据集,用于一般推荐和序列推荐。我们使用ML-1M版本的MovieLens数据集,并丢弃相关交互少于5个的用户和项目。
- Amazon是来自Amazon[16,31]的产品评论和产品元数据的集合。我们在一个名为Books的子集上进行实验,并对这些交互次数小于10的用户和项目进行过滤。
Taobao是来自Taobao[60]商业平台的用户行为数据集。数据集包含几种类型的用户行为,包括点击、购买、添加到购物车和商品偏好。在我们的实验中,我们只使用点击行为。
A.2 数据集拆分(Dataset Splitting)
为了将时间信息融入到基于GNN推荐的聚合方法中,我们从用户的行为历史中收集时间信息,并建立用户的整个时间序列。之后,我们根据时间戳将这些时间序列分成训练、验证和测试数据集。我们将每个用户的时间序列中的前70%的交互作为训练集,并将接下来的10%的交互作为验证集,以搜索所有方法的最佳超参数设置。其余20%的交互被用作测试集来评估推荐性能。<br /> 然后,我们介绍了用于训练的用户和项目的时间顺序,其中是一跳邻居的数量。如果时间序列的长度小于,则在左侧重复添加一个“填充”项,直到长度为。否则,我们将时间序列截断到最后的项目,并构建用户的时间序列。类似地,项目的时间顺序也可以通过上述操作来构建。
A.3 评估方案(Evaluation Protocol)
A.3.1 评估指标(Evaluation Metrics)
我们将用户的推荐列表定义为,其中代表基于预测分数在的第位置的排名。是测试数据中的交互项目的集合。
MRR@K:Mean Reciprocal Rank (MRR)是正确推荐的项目
的倒数排名的平均值。MRR指标考虑推荐排名的顺序,其中较大的MRR值表示正确的推荐位于推荐列表的顶部。当正确推荐的项目的排名超过K时,MRR被设置为0。
(15)
其中N表示测试数据中的用户数。
- NDCG@K:Normalized Discounted Cumulative Gain (NDCG)是一种位置感知指标,它为较高的位置分配较大的权重。
(16)
其中,是指标函数,而
是归一化常数,表示ideal discounted cumulative gain (IDCG@K),这是DCG@K的最大可能值。
- HR@K:Hit Ratio(HR)提供了至少可以收到一个正确推荐的用户的百分比。
A.3.2 评估设置(Evaluation Setup)
对于序列模型,我们将测试序列作为输入,根据当前模型得到测试用户的嵌入。接下来,项目嵌入可以由当前模型表示。最后,我们通过对测试用户未交互的所有项目进行排名来计算指标。对于STAM,我们通过利用基于GNN的STAM推荐来获得用户和项目嵌入,然后通过对测试用户未交互的所有项目进行排名来计算指标。
A.4 基线(Baselines)
我们从推荐模型中收集各种基线,包括传统的(MostPopular,BPRMF),基于神经网络的(NeuMF),基于图神经网络的(GC-MC,PinSage,NGCF和LightGCN),以及基于序列的(GRU4Rec,Caser,SASRec和BERT4Rec)。
- MostPopular是一种非个性化的静态方法,它根据流行度推荐排名靠前的项目。
- BPRMF[34]是一种经典的隐式反馈数据的项目推荐的矩阵分解方法,它通过成对贝叶斯个性化排序(BPR)损失来优化矩阵分解。
- NeuMF[18]是一个神经CF模型,它使用多个隐含层来捕获用户与项目的非线性特征交互。
- GC-MC[1]只考虑了一跳邻居,它对一阶用户-项目交互进行建模,而忽略了原始用户和项目表示本身。
- PinSage[56]使用基于随机游走的采样策略对固定大小的邻域进行采样,并通过图卷积传播信息,这可扩展到Web规模的推荐。
- NGCF[48]通过消息传播对用户-项目图中的高阶连通性进行建模,并利用残差网络从不同层获得最终节点嵌入。
- LightGCN[17]通过去掉特征变换和非线性激活来简化GCN结构,只使用线性邻域聚合和所有层嵌入的加权和作为最终嵌入。
- GRU4Rec[20]是第一个使用RNN为基于会话的推荐建模顺序用户行为的工作。
- Caser[42]提出了一种基于卷积神经网络的方法来捕获
最近项目的序列结构,并取得了较好的序列推荐性能。
- SASRec[22]使用自注意机制来从用户的动作历史中识别“相关”项目来预测下一项目,其中应用一组可训练的位置嵌入来编码序列中项目的顺序。
BERT4Rec [40]采用深度双向自注意对用户行为序列进行建模,并提出从左右两侧学习双向表征。此外,使用左右上下文预测掩蔽项的完形填空任务用于模型训练。
A.5 聚合方法(Aggregation Methods)
我们从以前的基于GNN的推荐模型和图表示学习中收集了五种有代表性的聚合方法。聚集方法分为基于空间的聚合方法和基于时间的聚合方法。我们首先回顾了基于空间的方法,包括“平均池化”、“注意力池化”、“度归一化”和“中心节点增强”。然后,我们介绍了用于消融研究的BiLSTM聚合器。这里,我们以中心用户为例,学习聚合邻居嵌入。
平均池化聚合(Mean Pooling Aggregator)。在基于GNN的推荐模型中,平均池化聚合平等地对待邻居,以反映用户偏好。平均池化聚合可以表示为:
(18)
其中是非线性激活函数,
是给定用户
的邻居。
- 注意力池化聚合(Attentive Pooling Aggregator)。正如GAT[44]中提出的,注意力池化聚合通过注意力机制区分邻居的重要性,并通过注意邻居来更新每个节点(用户和项目)的嵌入。注意力池化聚合被定义为:
(19)
其中,是注意力权重权重,公式如下:
(20)
其中和
是可训练的参数。
- 度归一化聚合(Degree Normalization Aggregator)。度归一化聚合根据图结构为节点分配权重。如LightGCN中所示,它省略了非线性转换,其中聚合邻居嵌入并基于图结构分配权重,该图结构可定义为:
(21)
- 中心节点增强聚合(Central Node Augmentation Aggregator)。如NGCF所示,它决定了聚合邻居嵌入在中心节点之间的亲和度。具体地说,NGCF使用elementwise product来增强用户关心的项目的特征。以中心用户为例:
(22)
其中⊙表示逐个元素的乘法运算。
- BiLSTM聚合(BiLSTM Aggregator)。在GraphSAGE中,LSTM聚合被用来对一跳邻居的时间顺序进行建模。然而,普通的LSTM只利用前面或过去的信息。一些工作[40,59]证明了单向模型是次优的,并且限制了隐藏表示的能力,其中每个项目只能编码来自先前项目的信息。双向LSTM(BiLSTM)[12]是对普通LSTM的改进,其中前向隐含层和后向隐含层相结合,可以访问先前和过去的信息。因此,我们使用BiLSTM从前后两个角度来捕捉时间顺序。BiLSTM将用户的时间顺序
作为输入,并计算每个项目的隐藏状态向量:
(23)
我们通过连接来自两个方向的隐藏状态来获得第项目的最终隐藏表示,
(24)
设是由BiLSTM层产生的输出向量
组成的矩阵,其中
是输入序列长度。邻居嵌入可以表示为:
(25)
其中是可训练的参数向量。