DirectAU: Towards Representation Alignment and Uniformity in Collaborative Filtering

  • Chenyang Wang, Yuangqing Yu, Weizhi Ma, et al. Towards Representation Alignment and Uniformity in Collaborative Filtering[C]. In KDD 2022.
  • 清华大学 截稿日期:2022-02-10 通知日期:2022-05-19 会议日期:2022-08-14

    摘要(Abstract)

    1. 协同过滤在推荐系统的发展中起着至关重要的作用。大多数CF方法利用编码器将用户和项目嵌入到同一个表示空间中,并且通常采用贝叶斯个性化排序(BPR)损失作为学习信息编码器的目标函数。现有的研究主要集中在设计更强大的编码器(如图神经网络)来学习更好的表示。然而,很少有人致力于研究CF中表征的期望性质,这对于理解现有CF方法的理论基础和设计新的学习目标是重要的。<br /> 本文从超球面上的对齐性和均匀性的角度来度量CF中的表示质量。我们首先从理论上揭示了BPR损失与这两个属性之间的联系。然后,我们从量化对齐和均匀性两个方面实证分析了典型CF方法的学习动态,结果表明,较好的对齐或均匀性都有助于更高的推荐性能。基于分析结果,提出了一个直接优化这两个属性的学习目标DirectAU。我们在三个公共数据集上进行了大量的实验,与最先进的CF方法相比,本文提出的基于简单矩阵分解模型的学习框架具有显著的性能提升。我们的代码实现在[https://github.com/THUwangcy/DirectAU](https://github.com/THUwangcy/DirectAU)

    关键词(Keywords)

    推荐系统、协同过滤、表征学习、对齐和均匀性

    1 引言(Introduction)

    1. 推荐系统已经成为用户参与网络服务的重要组成部分,如产品推荐[17]、视频推荐[4]等。为了帮助用户发现潜在的兴趣项目,协同过滤(CF)被广泛应用于个性化推荐[20]。CF的核心思想是相似的用户往往有相似的偏好。与基于内容的推荐方法相比,基于内容的推荐方法只依赖于过去的用户行为来预测用户对候选项目的偏好。CF的简单性和有效性使其成为推荐系统中的规范技术[22]。<br /> 大多数CF方法利用编码器将用户和项目嵌入到共享空间,然后优化目标函数以学习信息丰富的用户和项目表示[16]。最简单的编码器可以是将用户和项目ID直接映射到嵌入[10]的嵌入表,并且通常采用贝叶斯个性化排名(BPR)[19]作为目标函数来区分积极的交互和未观察到的交互。已有的研究主要集中在设计更强大的编码器来建模用户和项目之间的复杂协同信号。具体地说,近年来出现了基于神经网络的交互编码器,如多层感知器(MLP)[8]、注意力机制[3]、图神经网络(GNN)[728]等。同时,最近的一些工作指出,如今复杂的CF编码器实际上导致了边际性能改善[16]。因此,研究人员还开始研究除了常见的成对BPR损失之外的其他目标函数(例如,InfoNCE损失[34],余弦对比损失[16]),这些目标函数已被证明比复杂编码器带来更稳健的改进。<br /> 然而,很少有人致力于研究由编码器导出的用户和项目表示的期望属性。这对于证明现有CF方法背后的基本原理并设计有利于这些特性的新的学习目标是重要的。直观地说,positive-related的用户-项目对的表示应该彼此接近,并且每个表示应该尽可能多地保留关于用户/项目本身的信息。假设所有的表示都是![](https://cdn.nlark.com/yuque/__latex/12ea5d8dd1e9b2b63ca602dd183dde08.svg#card=math&code=L_2&id=Mos0m)正则化的,这两个性质可以被称为1)单位超球面上的对齐和2)均匀性[27]。要学习信息丰富的用户和项目表示,对齐和均匀性都是非常重要的。如果只考虑对齐,则通过将所有用户和项目映射到相同的嵌入,很容易实现完全对齐的编码器。可以看出,CF中现有损失函数的目标是避免这种微不足道的常数(即,保持均匀性),同时进行优化以获得更好的对齐。在实践中,负样本通常被用来实现这一目标。例如,BPR损失[19]将每个正交互与随机采样的负项目配对,并且鼓励正交互项目的预测得分高于负项目。<br /> 在这项工作中,我们分析了对比表征学习的最新进展[5,27]启发CF的对齐和均匀性特性。我们首先从理论上证明了BPR损失实际上有利于这两个特性,并且完全对齐和均匀的编码器形成了BPR损失的精确最小化。然后,我们通过文献[27]中提出的相应量化指标,从对齐和均匀性两个方面对典型CF方法的学习动态进行了实证分析。我们发现,不同的CF方法表现出不同的学习轨迹,更好的对齐或更好的均匀性有利于表征质量的提高。例如,最简单的BPR快速收敛到有希望的对齐,并且主要是在之后改进均匀性。其他高级方法通过各种技术实现更好的对齐或均匀性,例如困难负样本和基于图的编码器,从而相应地带来更好的性能。基于分析结果,我们提出了一个直接优化这两个属性的学习目标DirectAU。在三个公开的真实世界数据集上进行了广泛的实验。实验结果表明,一个简单的基于矩阵分解的编码器(即嵌入表)优化了所提出的DirectAU损失,与最新的CF方法相比,获得了显著的改进(高达14%)。<br /> 这项工作的主要贡献可以概括如下:
  • 我们从理论上证明了完全对齐和均匀编码器构成了BPR损失的精确最小化。我们还从量化对齐和均匀性两个方面对典型CF方法的学习动态进行了实证分析。

  • 基于分析结果,提出了一个简单而有效的直接优化这两个特性的学习目标,称为DirectAU。
  • 在三个公开数据集上的大量实验表明,该算法在对齐和均匀性之间取得了很好的平衡。在优化DirectAU目标时,即使是最简单的基于矩阵分解的编码器,与最先进的CF方法相比,也能显著提高性能。

    2 预备知识(Preliminaries)

    1. 在这一部分中,我们首先阐述了协同过滤问题。然后,我们介绍了如何基于自监督学习的最新进展来衡量对齐和均匀性[27]。

    2.1 协同过滤(Collaborative Filtering)

    1. 设![](https://cdn.nlark.com/yuque/__latex/02774fdf96a6c26c8309d6bb4234e396.svg#card=math&code=%5Cmathcal%7BU%7D&id=N2PzO)和![](https://cdn.nlark.com/yuque/__latex/9291e3e5dc14a700640b9bd992971d7b.svg#card=math&code=%5Cmathcal%7BI%7D&id=m6Asr)分别表示用户和项目集。给定一组观察到的用户-项目交互![](https://cdn.nlark.com/yuque/__latex/393c6addbab12f0c31f1cef5864c9d09.svg#card=math&code=%5Cmathcal%7BR%7D%3D%5C%7B%28u%2C%20i%29%20%5Cmid%20u%20%5Ctext%20%7B%20interacted%20with%20%7D%20i%5C%7D&id=R0YIz),CF方法旨在推断每个未观察到的用户-项目对的分数![](https://cdn.nlark.com/yuque/__latex/de47e5754554e4456ad1cd4de9b6fe3b.svg#card=math&code=s%28u%2C%20i%29%20%5Cin%20%5Cmathbb%7BR%7D&id=mCGR3),该得分指示用户![](https://cdn.nlark.com/yuque/__latex/77c3adce895348f6083c425fe1ba2624.svg#card=math&code=u&id=gickO)倾向于与项目![](https://cdn.nlark.com/yuque/__latex/2443fbcfeb7e85e1d62b6f5e4f27207e.svg#card=math&code=i&id=cIyuv)交互的可能性有多大。然后,将根据预测推荐每个用户得分最高的项目。<br /> 通常,大多数CF方法使用编码器网络![](https://cdn.nlark.com/yuque/__latex/faad55346425882be82d51746a394ecd.svg#card=math&code=f%28%5Ccdot%29&id=YgUu3),其将每个用户和项目映射到低维表示![](https://cdn.nlark.com/yuque/__latex/81aa8a3c2035dbb2d0bd184c6258602a.svg#card=math&code=f%28u%29&id=nDghp),![](https://cdn.nlark.com/yuque/__latex/877ee629bd0e858eb8e6a4ac7c588e4e.svg#card=math&code=f%28i%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd%7D&id=k5pAa)(![](https://cdn.nlark.com/yuque/__latex/56c1b0cb7a48ccf9520b0adb3c8cb2e8.svg#card=math&code=d&id=fkKWG)是潜在空间的维度)。例如,矩阵分解模型中的编码器通常是一个嵌入表,它根据用户和项目的ID将每个用户和项目直接映射到一个潜在向量。基于图的模型中的编码器进一步利用邻域信息。然后,预测分数被定义为用户和项目表示之间的相似度(例如,点积,![](https://cdn.nlark.com/yuque/__latex/12436ad85e9295464aff9d802ebee861.svg#card=math&code=s%28u%2C%20i%29%3Df%28u%29%5E%7BT%7D%20f%28i%29&id=kYDY4))。至于学习目标,大多数研究采用成对BPR[19]损失来训练模型:<br />![](https://cdn.nlark.com/yuque/__latex/75d11a6dfff1e5e95bb8ec2a50626cad.svg#card=math&code=%5Cmathcal%7BL%7D_%7BB%20P%20R%7D%3D%5Cfrac%7B1%7D%7B%7C%5Cmathcal%7BR%7D%7C%7D%20%5Csum_%7B%28u%2C%20i%29%20%5Cin%20%5Cmathcal%7BR%7D%7D-%5Clog%20%5Cleft%5B%5Coperatorname%7Bsigmoid%7D%5Cleft%28s%28u%2C%20i%29-s%5Cleft%28u%2C%20i%5E%7B-%7D%5Cright%29%5Cright%29%5Cright%5D&id=KQtll) (1)<br />其中![](https://cdn.nlark.com/yuque/__latex/d7887582dd637d699a0de9094f168738.svg#card=math&code=i%5E-&id=laPyC)是随机采样的负项目(negative item),用户没有与之交互。该损失函数旨在优化目标项目比随机负项目获得更高分数的概率。

    2.2 对齐和均匀性(Alignment and Uniformity)

    1. 关于无监督对比表征学习的研究[527]发现,表征的质量与两个关键属性高度相关,即对齐和均匀性。给定数据![](https://cdn.nlark.com/yuque/__latex/7da543114911ad76b17c79abc26ea336.svg#card=math&code=p_%7B%5Ctext%20%7Bdata%20%7D%7D%28%5Ccdot%29&id=L96ha)的分布和正对![](https://cdn.nlark.com/yuque/__latex/9dde4e2f1d1ae95a0e26bf100e6d6e8a.svg#card=math&code=p_%7B%5Ctext%20%7Bpos%20%7D%7D%28%5Ccdot%2C%20%5Ccdot%29&id=yXI7Q)的分布,对齐直接定义为正对归一化嵌入之间的预期距离:<br />![](https://cdn.nlark.com/yuque/__latex/5b9edba25b6080cd9c41c8b2b802c802.svg#card=math&code=l_%7B%5Ctext%20%7Balign%20%7D%7D%20%5Ctriangleq%20%5Cunderset%7B%5Cleft%28x%2C%20x%5E%7B%2B%7D%5Cright%29%20%5Csim%20p_%7B%5Ctext%20%7Bpos%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5C%7Cf%28x%29-f%5Cleft%28%5Ctilde%7Bx%5E%7B%2B%7D%7D%5Cright%29%5Cright%5C%7C%5E%7B2%7D&id=QTneE) (2)<br />其中![](https://cdn.nlark.com/yuque/__latex/2b988b265bc88ceed29a8de30e2fbae4.svg#card=math&code=%5Ctilde%7Bf%28%5Ccdot%29%7D&id=lOjoN)表示![](https://cdn.nlark.com/yuque/__latex/12ea5d8dd1e9b2b63ca602dd183dde08.svg#card=math&code=L_2&id=IBE6D)正则化表示。另一方面,均匀损失被定义为平均成对高斯势的对数:<br />![](https://cdn.nlark.com/yuque/__latex/44061160202dc00c9d77cb192fa636db.svg#card=math&code=l_%7B%5Ctext%20%7Buniform%20%7D%7D%20%5Ctriangleq%20%5Clog%20%5Cunderset%7Bx%2C%20y%20%5Csim%20p_%7B%5Ctext%20%7Bdata%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D%20e%5E%7B-2%5C%7Cf%28x%29-f%28y%29%5C%7C%5E%7B2%7D%7D&id=Mk7tY) (3)<br /> 这两个度量与表征学习的目标很好地一致:正实例应该彼此接近,而随机实例应该分散在超球面上。在这项工作中,我们将BPR损失与这两个指标联系起来,并使用它们来分析典型CF方法的学习动态。

    3 协同过滤中的对齐和均匀性(Alignment and Uniformity In Collaborative Filtering)

    1. 在这一部分中,我们首先从理论上证明BPR损失有利于超球面上的表示对齐和均匀性。然后,我们实证地观察了这两个属性在不同CF方法的训练过程中是如何演变的。

    3.1 理论分析(Theoretical Analyses)

    1. 假设正(positive)用户-项目对的分布为![](https://cdn.nlark.com/yuque/__latex/459ea18fadc2141fe4e6f6a5e8db5f8d.svg#card=math&code=p_%7B%5Ctext%20%7Bpos%20%7D%7D&id=r8uDI),并且用户和项目的分布分别表示为![](https://cdn.nlark.com/yuque/__latex/0a662bbbedd340c47ecbcdf6ce490083.svg#card=math&code=p_%7B%5Ctext%20%7Buser%20%7D%7D&id=eBWzy)和![](https://cdn.nlark.com/yuque/__latex/82ceedc4372b723d12718fe3551e3b6f.svg#card=math&code=p_%7B%5Ctext%20%7Bitem%20%7D%7D&id=lfClb), 我们首先定义CF中对齐和均匀性的最优概念如下:<br />Definition 1 (完全对齐Perfect Alignment) _if_![](https://cdn.nlark.com/yuque/__latex/de6531e6d071cd4544219707d3d629f0.svg#card=math&code=f%20%5Ctilde%7B%28%7D%20u%29%3Df%20%5Ctilde%7B%28%7D%20i%29&id=ZNlKn)_a.s. over _![](https://cdn.nlark.com/yuque/__latex/51c72cba6866bafadb3ccb41952b61be.svg#card=math&code=%28u%2C%20i%29%20%5Csim%20p_%7B%5Ctext%20%7Bpos%20%7D%7D&id=SKAwx)_,_则编码器![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=hXvc3)完全对齐<br />Definition 2 (完全均匀性Perfect Uniformity) _if _![](https://cdn.nlark.com/yuque/__latex/b1b15e3a944d1e98ecad919d84fd1af6.svg#card=math&code=f%20%5Ctilde%7B%28%7D%20u%29&id=Rguvt)的![](https://cdn.nlark.com/yuque/__latex/d31ee575442f344c87da5b7bc1422f3a.svg#card=math&code=u%20%5Csim%20p%20%5Ctext%20%7B%20user%20%7D&id=jwEzn)分布和![](https://cdn.nlark.com/yuque/__latex/ad49577966b5954b7c0360c5f801e1b1.svg#card=math&code=f%20%5Ctilde%7B%28%7D%20i%29&id=w8p7R)的![](https://cdn.nlark.com/yuque/__latex/8781ac2d30ba721c4bd4208de4f88b70.svg#card=math&code=i%20%5Csim%20p_%7B%5Ctext%20%7Bitem%20%7D%7D&id=jq151)分布是![](https://cdn.nlark.com/yuque/__latex/c5b0ede9498e919d97943a1ace55fbd1.svg#card=math&code=%5Cmathcal%7BS%7D%5E%7Bd-1%7D&id=ZPqza)上的均匀分布![](https://cdn.nlark.com/yuque/__latex/7510a6afded2aded367be1011fc6a55c.svg#card=math&code=%5Csigma_%7Bd-1%7D&id=XkhLc),则编码器![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=A0NAC)是完美均匀性<br /> 这里![](https://cdn.nlark.com/yuque/__latex/f76931097c03f71322d5b2fa137a1bbe.svg#card=math&code=%5Cmathcal%7BS%7D%5E%7Bd-1%7D%3D%5Cleft%5C%7Bx%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd%7D%3A%5C%7Cx%5C%7C%3D1%5Cright%5C%7D&id=j7ukE)是![](https://cdn.nlark.com/yuque/__latex/56c1b0cb7a48ccf9520b0adb3c8cb2e8.svg#card=math&code=d&id=nCvot)维单位球的表面。注意,通过将所有输入映射到相同的表示,可以容易地实现完全对齐的编码器,代价是最差的均匀性。考虑到实际应用中用户/项目的数量通常很大而![](https://cdn.nlark.com/yuque/__latex/56c1b0cb7a48ccf9520b0adb3c8cb2e8.svg#card=math&code=d&id=KOjJj)很小,也可以实现完全均匀的编码器。下面的定理表明,如果可以实现完全对齐和均匀性,则BPR损失有利于这两个特性。<br />定理 1 如果存在完全对齐和均匀性的编码器,则他们形成的BPR损失![](https://cdn.nlark.com/yuque/__latex/7f47bccf72c1e6ab53adb7d75775bd16.svg#card=math&code=%5Cmathcal%7BL%7D_%7BB%20P%20R%7D&id=cH8wC)精确最小化。<br />Proof : 假设相似性函数![](https://cdn.nlark.com/yuque/__latex/040c55dd2d9f09c03edf56d51336ab17.svg#card=math&code=s%28u%2Ci%29&id=QnN6A)是余弦相似性(用户/项目表示被归一化),我们有<br />![](https://cdn.nlark.com/yuque/__latex/5d51248e2afe945b04d9aa9b19179843.svg#card=math&code=%5Cbegin%7Baligned%7D%0A%5Cmathcal%7BL%7D_%7BB%20P%20R%7D%20%26%3D%5Cunderset%7B%28u%2C%20i%29%20%5Csim%20p_%7B%5Ctext%20%7Bpos%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D-%5Clog%20%5Coperatorname%7Bsigmoid%7D%5Cleft%28s%28u%2C%20i%29-s%5Cleft%28u%2C%20i%5E%7B-%7D%5Cright%29%5Cright%29%20%5C%5C%0A%26%3D%5Cunderset%7B%28u%2C%20i%29%20%5Csim%20p_%7B%5Ctext%20%7Bpos%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D-%5Clog%20%5Cleft%28%5Cfrac%7Be%5E%7Bf%28u%29%5E%7BT%7D%20f%20%5Ctilde%7B%28i%29%7D%7D%7D%7Be%5E%7Bf%28u%29%5E%7BT%7D%7D%20f%20%5Ctilde%7B%28i%29%7D%2Be%5E%7Bf%28u%29%5E%7BT%7D%7D%20f%5Cleft%28%5Ctilde%7Bi%7D%5E%7B-%7D%5Cright%29%7D%5Cright%29%20%5C%5C%0A%26%3D%5Cunderset%7B%28u%2C%20i%29%20%5Csim%20p_%7B%5Ctext%20%7Bpos%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D-f%28u%29%5E%7BT%7D%20f%20%5Ctilde%7B%28i%29%7D%2B%5Clog%20%5Cleft%28e%5E%7Bf%28u%29%5E%7BT%7D%20f%20%5Ctilde%7B%28i%29%7D%7D%2Be%5E%7Bf%28u%29%5E%7BT%7D%20f%5Cleft%28%5Ctilde%7Bi%7D%5E%7B-%7D%5Cright%29%7D%5Cright%29%20%5C%5C%0A%26%20%5Cgeq%20%5Cunderset%7B%28u%2C%20i%29%20%5Csim%20p_%7B%5Cmathrm%7Bpos%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B-1%2B%5Clog%20%5Cleft%28e%5E%7B1%7D%2Be%5E%7Bf%28u%29%5E%7BT%7D%20f%5Cleft%28%5Ctilde%7Bi%7D%5E%7B-%7D%5Cright%29%7D%5Cright%29%5Cright%5D%20%5C%5C%0A%26%20%5Cgeq-1%2B%5Cint_%7B%5Cmathcal%7BS%7D%5E%7Bd-1%7D%7D%20%5Cint_%7B%5Cmathcal%7BS%7D%7D%5E%7Bd-1%7D%20%5Clog%20%5Cleft%28e%2Be%5E%7Bx%5E%7BT%7D%20y%7D%5Cright%29%20%5Cmathrm%7Bd%7D%20%5Csigma_%7Bd-1%7D%28x%29%20%5Cmathrm%7Bd%7D%20%5Csigma_%7Bd-1%7D%28y%29%0A%5Cend%7Baligned%7D&id=Cr7vQ)<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656600354757-10a4ea1b-3cbe-40ac-a6ea-0a48705f17ea.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=367&id=u8ed5d75f&margin=%5Bobject%20Object%5D&name=image.png&originHeight=551&originWidth=963&originalType=binary&ratio=1&rotation=0&showTitle=false&size=89532&status=done&style=none&taskId=uf02da7c5-b482-4b7d-b0f9-28241434c4b&title=&width=642)<br /> 根据完全对齐的定义,当且仅当![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=dT5jO)完全对齐时,方程式(4)中的等式被满足。根据[27]中的引理2,当且仅当由![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=zWFHC)引起的特征分布是![](https://cdn.nlark.com/yuque/__latex/7510a6afded2aded367be1011fc6a55c.svg#card=math&code=%5Csigma_%7Bd-1%7D&id=ATSfe)(![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=GujKr)是完全均匀的)时,等式(5)被满足。因此,![](https://cdn.nlark.com/yuque/__latex/a1295dd0c7fea2ae940c2aac1e0f60fb.svg#card=math&code=%5Cmathcal%7BL%7D_%7BB%20P%20R%7D%20%5Cgeq%20a&id=fbOPr)是一个独立于![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=hVPRh)的常量,当且仅当![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=rTCdK)完全对齐且均匀时,等式才满足相等。<br /> 考虑到第2.2节中的量化指标已被证明与完全对齐和均匀性[27]很好地对齐,该定理表明BPR损失确实有利于较低的![](https://cdn.nlark.com/yuque/__latex/d210502bfac42855fc6cdfe422d9b168.svg#card=math&code=l_%7B%5Ctext%20%7Balign%20%7D%7D&id=kTNae)和![](https://cdn.nlark.com/yuque/__latex/4ac0099b695f85275e24d2e784148a03.svg#card=math&code=l_%7B%5Cmathrm%7Buniform%7D%7D&id=JzQQ9)。接下来,我们将从对齐和均匀性的角度实证性地展示不同CF方法的学习动态。

    3.2 经验观察(Empirical Observations)

    image.png
    图1 协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图2协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图3在训练过程中的趋势(左)和优化Beauty数据集的BPR损失时的学习曲线(右)
    我们使用BPR损失来训练Beauty数据集的矩阵分解(MF)模型。这里的编码器是一个简单的嵌入表,它将ID映射到嵌入。图1显示了这两个属性,BPR损失和推荐性能(NDCG@20)在训练期间是如何变化的。首先,我们发现随机初始化的编码器对齐不准,但均匀性很好(初始均匀性损失很低)。随着BPR损失的优化,对齐损失迅速降低,导致均匀性损失增加。随着对齐损失变得稳定,均匀性损失开始降低。总体而言,随着更好的对齐和均匀性的实现,推荐性能也得到了提高。这从经验上验证了3.1节中的分析,即BPR损失确实针对较低的协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图4协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图5进行了优化。
    除了具有BPR损失的最简单的MF编码器(BPRMF)之外,不同的CF方法可能具有不同的学习轨迹。我们进一步可视化了4种典型CF方法在Beauty数据集上的每个epoch的对齐和均匀性指标,如图2所示。BPRMF表示具有如上所述的BPR损失的最简单的MF编码器。BPR-DS[18]通过采用动态负采样策略来增强BPRMF,该策略使采样概率与预测得分成正比。LGCN[7]使用图神经网络(GNN)作为编码器,并使用标准的BPR训练策略。ENMF[2]利用了所有的负面交互作用,并设计了一种有效的方法来优化均方误差(MSE)损失。图2中的星号表示不同模型的聚合点,我们在括号中注释NDCG@20。我们主要有以下几点观察:
    image.png
    图2 训练期间不同CF方法的协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图7图。我们将这两个指标在每个epoch可视化,星星表示聚合点。我们还在括号中为每个模型标注了NDCG@20(数字越大越好)。对于协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图8协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图9,数值越小越好。

  • BPR的优化更注重均匀性(区分积极和消极的交互),但不会持续推动积极的用户-项目对更接近。

  • BPR-DS采样更困难的负项目,从而导致较低的均匀性损失和较好的性能。但困难负样本使正用户-项目对难以对齐(更高的对齐损失)。
  • LGCN聚合邻域信息,因此即使在开始时也实现了较好的对齐。这解释了为什么LGCN通常在BPR损失方面表现良好。GNN编码器结构具有良好的对齐性能,而BPR损失具有较好的均匀性。虽然训练过程损害了对齐,最终的均匀性比BPRMF差,但最终的对齐仍然是显著的,这导致了更好的性能。
  • 与上述的成对方法不同,ENMF直接优化MSE并利用所有负交互,将正用户-项目对的得分推至1,但不只是大于BPR之类的负面对。这种基于整体数据的训练在很大程度上有利于对齐的优化,同时保持良好的均匀性,因此产生了优异的性能。但这种逐点优化也会损害后期训练阶段的均匀性。

    1. 根据以上的观察,我们发现不同的CF方法在对齐和均匀性方面具有不同的学习动态。与标准的BPRMF相比,BPR-DS的均匀性更好,但对齐较差;LGCN的对齐更好,但均匀性较差,而BPR-DSLGCN的推荐性能都高于BPRMFENMF进一步获得了最好的性能,同时具有良好的对齐和均匀性。这表明CF中的用户和项目表示确实偏爱这两个属性。实现更好的对齐或均匀性都有助于更高的推荐性能,同时优化它们可能是有益的。

    4 直接优化对齐和均匀性(Directly Optimizing Alignment and Uniformity(DirectAU))

    1. 上述分析表明,对齐和均匀性对于学习信息用户和项目表征是必不可少的。这促使我们设计了一个新的学习目标,直接优化这两个属性以获得更好的推荐性能,称为DirectAU。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656577098255-9697f366-e398-4f9e-bd35-7499ad3c502e.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=479&id=ue7a2e4d6&margin=%5Bobject%20Object%5D&name=image.png&originHeight=718&originWidth=1305&originalType=binary&ratio=1&rotation=0&showTitle=false&size=92937&status=done&style=none&taskId=u25021156-c33e-46a9-92c9-3aa5825a7bb&title=&width=870)<br />**图3 提出的DirectAU概述**。我们直接优化1)正用户-项目对的表示对齐和2)用户/项目的批次内均匀性<br /> 图1展示了提出框架的整体结构。输入的正用户-项目对首先被编码为嵌入,并被![](https://cdn.nlark.com/yuque/__latex/ef72158dc20d9275711e3a581ace0a52.svg#card=math&code=L_2%0A&id=pRvQT)正则化为超球面。我们使用一个简单的嵌入表(将用户/项目ID映射到嵌入)作为默认编码器。然后,我们对CF中的对齐和均匀性进行如下量化:<br />![](https://cdn.nlark.com/yuque/__latex/2e0162505fa90ad8a066ebd1a0ed9cbd.svg#card=math&code=%5Cbegin%7Baligned%7D%0Al_%7B%5Ctext%20%7Balign%20%7D%7D%3D%26%20%5Cunderset%7B%28u%2C%20i%29%20%5Csim%20p_%7B%5Ctext%20%7Bpos%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D%5C%7Cf%28u%29-f%28%5Ctilde%7Bi%7D%29%5C%7C%5E%7B2%7D%20%5C%5C%0Al_%7B%5Ctext%20%7Buniform%20%7D%7D%3D%26%20%5Clog%20%5Cunderset%7Bu%2C%20u%5E%7B%5Cprime%7D%20%5Csim%20p_%7B%5Ctext%20%7Buser%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D%20e%5E%7B-2%20%5C%7C%20f%20%5Ctilde%7B%28u%29%7D-f%5Cleft%28%5Ctilde%7B%5Cleft.u%5E%7B%5Cprime%7D%5Cright%29%7D%20%5C%7C%5E%7B2%7D%20%2F%202%2B%5Cright.%7D%20%5C%5C%0A%26%20%5Clog%20%5Cunderset%7Bi%2C%20i%5E%7B%5Cprime%7D%20%5Csim%20p_%7B%5Ctext%20%7Bitem%20%7D%7D%7D%7B%5Cmathbb%7BE%7D%7D%20e%5E%7B-2%5Cleft%5C%7Cf%28i%29-f%5Cleft%28%5Ctilde%7Bi%7D%5E%7B%5Cprime%7D%5Cright%29%5Cright%5C%7C%5E%7B2%7D%20%2F%202%20.%7D%0A%5Cend%7Baligned%7D&id=EUF3P) (6)<br /> 对齐损失推高了正相关用户-项目对的表示之间的相似性,而均匀性损失衡量了表示在超球面上的分散程度。由于用户和项目的数据分布可能不同,因此我们分别计算用户表示和项目表示之间的均匀性,这更适合分别测量。最后,我们使用一个折中的超参数![](https://cdn.nlark.com/yuque/__latex/4aa418d6f0b6fbada90489b4374752e5.svg#card=math&code=%5Cgamma&id=ccoKQ)来联合优化这两个目标:<br />![](https://cdn.nlark.com/yuque/__latex/2a69297f02198c549dbe44800b13ce0f.svg#card=math&code=%5Cmathcal%7BL%7D_%7B%5Ctext%20%7BDirectAU%20%7D%7D%3Dl_%7B%5Ctext%20%7Balign%20%7D%7D%2B%5Cgamma%20l_%7B%5Ctext%20%7Buniform%20%7D%7D%20&id=Y33aB) (7)<br /> 权重![](https://cdn.nlark.com/yuque/__latex/4aa418d6f0b6fbada90489b4374752e5.svg#card=math&code=%5Cgamma&id=nqdCq)控制所需的均匀程度,这取决于每个数据集的特征。DirectAU的学习算法可以在附录中找到。<br /> 请注意,以前的CF方法通常依赖负采样来区分正交互和负交互,而DirectAU不需要额外的负样本,只使用正用户-项目对的输入批次。基于批次内表示之间的成对距离计算均匀性损失。使用批量实例使其更符合用户和项目的实际数据分布(即![](https://cdn.nlark.com/yuque/__latex/0f42def8a00fb9ae4149017f7ab8bf60.svg#card=math&code=p_%7B%5Cmathrm%7Buser%7D%7D%2C%20p_%7B%5Ctext%20%7Bitem%20%7D%7D&id=hBFlO)),这已被证明有助于减少推荐系统中的曝光偏差[34]。与现有的CF方法相比,DirectAU在没有负样本的情况下易于实现,并且只有一个超参数需要调整(不需要考虑采样策略中负样本的数量)。这使得DirectAU很容易与各种应用程序场景一起使用。对于分数函数,我们使用用户和项目表示之间的点积来计算排名分数并进行推荐,这在文献[7,8,25]中很常见。

    5 实验(Experiments)

    1. 在本节中,我们在三个公共数据集上进行了大量的实验,以验证DirectAU的有效性。我们首先描述了实验设置(第5.1节),并将DirectAU的整体Top-K推荐性能与其他最先进的CF方法进行了比较(第5.2节)。然后,我们给出了仅优化对齐或均匀性时的学习曲线,以验证这两个属性的重要性(5.3节)。我们还研究了DirectAU与其他CF编码器整合时的性能(第5.4节)。最后,我们给出了DirectAU的效率分析(第5.5节)和参数敏感性分析(第5.6节)。

    5.1 实验设置(Experimental Settings)

    5.1.1 数据集(Datasets)

    1. 我们在真实世界的场景中使用三个公共数据集。所有的数据集都是公开的,并在以前的研究中被广泛采用[7232428]。
  • Beauty:这是从Amazon抓取的一系列产品评论数据集之一。数据按顶级产品类别拆分为单独的数据集。

  • Gowalla:这是从Gowalla获得的签到数据集[13],用户通过签到来共享他们的位置。
  • Yelp2018:这是一个商业推荐数据集,包括餐厅、酒吧等。我们使用2018年1月1日之后的交易记录,遵循之前的工作[7,28]。

    1. 为了对数据集进行预处理,我们删除了重复的交互,并确保每个用户和项目至少有5个关联的交互。这一策略在以前的工作中也被广泛采用[1226]。数据集经过预处理后的统计汇总如表1所示。<br />**表1 数据集的统计**<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656577152578-14d28963-f5a6-4c01-a177-acfaa31d1e23.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=254&id=u1f720d7b&margin=%5Bobject%20Object%5D&name=image.png&originHeight=381&originWidth=1256&originalType=binary&ratio=1&rotation=0&showTitle=false&size=79061&status=done&style=none&taskId=u1dfe6f90-5a22-40af-b647-4168358f3ae&title=&width=837.3333333333334)

    5.1.2 基线(Baselines)

    我们将DirectAU的性能与各种最先进的CF方法进行比较:

  • BPRMF[19]:这是一种典型的负采样方法,它使用成对排名损失来优化MF,其中负项目是从项目集中随机采样的。

  • BPR-DS[18]:该方法通过采用动态采样策略来增强BPRMF,其中预测分数较高的负项更有可能被采样。
  • ENMF[2]:这是一个基于MF的模型,使用所有未观察到的相互作用作为负样本,没有负采样。引入最小化MSE损失的有效学习算法从整个数据中学习。
  • RecVAE[21]:该方法基于重构部分观测用户向量的变分自编码器,引入了几种技术来改进M-VAE[14]。
  • LGCN[7]:这是一个用于CF的简化图卷积网络,它在用户-项目二分图上的邻居之间执行线性传播。
  • DGCF[29]:这是一种最先进的基于GNN的方法,它在LGCN之上引入了解缠,它对意图感知交互图进行建模,并鼓励不同意图的独立性。
  • BUIR[12]:这是一种最先进的无负样本的CF方法,它只通过正交互来学习用户和项目嵌入。
  • CLRec[34]:这是最近提出的一种基于对比学习的方法,它采用InfoNCE损失来解决推荐系统中的曝光偏差。

    5.1.3 评估方案(Evaluation Protocols)

    1. 按照常见的做法[7828],对于每个数据集,我们将每个用户的交互随机分为训练/验证/测试集,比率为80%/10%/10%。为了评估TOP-K推荐的性能,我们使用了召回率和归一化折扣累积收益(NDCG)作为评估指标。Recall@K衡量在推荐结果中检索到多少目标项目,而NDCG@K则进一步关注它们在排名列表中的位置。注意,我们考虑所有项目的排序列表(除了用户历史中的训练项目),而不是像最近的工作[11]所提出的那样,将较小的随机项目集合与目标项目一起排序。我们用不同的随机种子重复每个实验5次,并报告平均分数。

    5.1.4 实施细节(Implementation Details)

    1. 我们使用RecBole [33]框架来实现公平比较的所有方法。Adam用作默认优化器,最大epochs设置为300。如果验证数据集上的NDCG@20持续下降10epoch,则采用提前停止。我们将所有方法的嵌入大小设置为64,学习速率设置为![](https://cdn.nlark.com/yuque/__latex/72eb8022cd52a797b6c25e17c48a2d57.svg#card=math&code=1e%5E%7B-3%7D&id=rL06B)。Beauty数据集的训练批次大小设置为256,其他两个数据集的训练批大小设置为1024。权重衰减在![](https://cdn.nlark.com/yuque/__latex/5a2d5f3a9c454ebba43ed1969f5f9bb1.svg#card=math&code=%5Cleft%5B0%2C1%20%5Cmathrm%7Be%7D%5E%7B-8%7D%2C%201%20%5Cmathrm%7Be%7D%5E%7B-6%7D%2C%201%20%5Cmathrm%7Be%7D%5E%7B-4%7D%5Cright%5D&id=RplRx)之间调整。DirectAU中的默认编码器![](https://cdn.nlark.com/yuque/__latex/18f3c2855f0e85a1ac2257f64d917144.svg#card=math&code=f&id=ALEuX)是一个简单的嵌入表,它将用户/项目ID映射到嵌入。DirectAU中![](https://cdn.nlark.com/yuque/__latex/775ffcb82393454a6adade03d733756e.svg#card=math&code=l_%7B%5Ctext%20%7Buniform%20%7D%7D&id=p8hBh)的权重![](https://cdn.nlark.com/yuque/__latex/4aa418d6f0b6fbada90489b4374752e5.svg#card=math&code=%5Cgamma&id=NwGf4)在[0.2,0.5,1,2,5,10]内调整。对于基线特定的超参数,我们在原始论文建议的范围内对它们进行调整。所有参数均通过Xavier初始化进行初始化。

    5.2 总体性能(Overall Performance)

    表2 在三个数据集上的Top-K推荐性能。最佳结果用粗体标出,最佳基线用下划线标出。上标∗∗表示DirectAU与最佳基线的配对t检验的协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图10≤为0.01(相对改进表示为Improv)。
    image.png
    表2显示了不同基准CF方法和我们的DirectAU的性能。从实验结果来看,我们主要有以下几点观察。
    第一,考虑到大多数基线来自近两年的研究,直接优化对齐和均匀性会产生如此令人印象深刻的性能改进,这是令人惊讶的。这表明这两个属性与CF的表示质量非常一致,而现有的模型可能不能很好地处理对齐和均匀性,这导致了较差的结果。与最先进的CF方法相比,DirectAU不仅在概念上简单,而且在经验上也有效。
    第二,我们发现最佳基线在不同的数据集中是不同的。基于CLRec的对比学习在Beauty上是有效的;而基于GNN的DGCF在Gowalla上具有优势;ENMF在最大的数据集Yelp2018上取得了显著的性能。这表明,不同的CF模型的特点可能适合不同的应用场景。相反,DirectAU能够直接调整对齐和均匀性之间的平衡,从而在所有三个数据集上实现始终如一的最佳性能。
    第三,比较不同类型的基线,具有更复杂编码器的方法并不总是对性能有利。最复杂的DGCF模型只在Gowalla上最有效,但通常需要花费更多的时间来训练。不同的是,专注于学习目标的方法(例如,ENMF、CLRec)更稳健,通常会产生有希望的结果。这表明了设计合适的损失函数而不是复杂的编码器的重要性。DirectAU的有效性还表明,理解CF中表示的期望属性是有用的,这有助于设计更强大的损失函数。
    image.png
    图4 不同CF模型在Beauty数据集的协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图13。对于协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图14协同过滤中考虑表征对齐和均匀性DirectAU-2022 - 图15,数字越小越好。括号中的颜色和数字表示NDCG@20。
    此外,在图4中,我们显示了不同的CF方法的对齐和均匀性,以及它们在Beauty数据集的推荐性能。总体而言,我们可以看到,具有更好的对齐和均匀性的方法获得了更好的性能。由于这两个属性之间的平衡,ENMF和CLRec成为两个强基线。DGCF主要通过在表示中引入解缠来提高LGCN上的均匀性。最近的新方法BUIR在没有负样本的情况下取得了令人满意的结果,这主要是由于其在对齐方面的优越性。但由于没有负样本的监测信号,BUIR的均匀性较差。与最先进的CF方法相比,DirectAU实现了最低的对齐和均匀性损失,并产生了最佳的性能。这验证了对齐和均匀性对CF中表示质量的因果影响。

    5.3 对齐和均匀性损失的重要性(Importance of Both Alignment and Uniformity Losses)

    1. 为了说明这两个属性对于学习信息编码器都很重要,图5给出了1)仅优化对齐损失、2)仅优化均匀性损失、3)在Yelp2018优化两个损失的学习曲线。如果仅考虑对齐(左),则编码器实现完全对齐(![](https://cdn.nlark.com/yuque/__latex/d210502bfac42855fc6cdfe422d9b168.svg#card=math&code=l_%7B%5Ctext%20%7Balign%20%7D%7D&id=DBgmG)接近0),但均匀性变差。因此,推荐性能在开始时只提高了一点点,然后收敛到较差的结果。如果只考虑均匀性(中间),编码器将保持均匀性(随机初始化的嵌入非常均匀),但不会改进对齐。因此,性能甚至比只优化![](https://cdn.nlark.com/yuque/__latex/38bfc726227ffe76aa2838bd7046bfae.svg#card=math&code=l_%7B%5Cmathrm%7Balign%7D%7D&id=yA7a4)还要差。不同的是,当同时优化对齐和均匀性(右)时,编码器在保持良好的均匀性的同时,不断地改进对齐。结果,表示质量稳步提高,提高了推荐性能。这些趋势表明了在CF中解决对齐和均匀性的重要性。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656577317487-ed2a36b5-6869-419d-92d1-33ca80371304.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=265&id=u1d05ebd4&margin=%5Bobject%20Object%5D&name=image.png&originHeight=398&originWidth=1429&originalType=binary&ratio=1&rotation=0&showTitle=false&size=78306&status=done&style=none&taskId=u6b9b9c82-e306-4d4d-986a-7f6a76c0a08&title=&width=952.6666666666666)<br />图5 仅优化对齐损失(左)、仅优化均匀性损失(中)以及在Yelp2018优化两个损失(右)的学习曲线。![](https://cdn.nlark.com/yuque/__latex/775ffcb82393454a6adade03d733756e.svg#card=math&code=l_%7B%5Ctext%20%7Buniform%20%7D%7D&id=uK3aV)被指数化,以获得更好的可视化效果。当仅优化对齐和均匀性中的一个时,编码器产生较差的性能。这两个属性对于学习高质量的用户和项目表示都很重要。

    5.4 与其他CF编码器整合(Integration with Other CF Encoders)

    1. 在主要实验中(表2),我们使用简单的MF编码器(即嵌入表)来优化DirectAU损失。这就提出了这样一个问题:直接优化其他CF编码器的对齐和均匀性是否也是有益的。这里,我们分别使用不同层数的MFLGCN作为交互编码器。表3显示了这些方法的性能及其原始损失和相应的DirectAU损失变体。LGCN-X是指具有XGNN层的LGCN编码器。我们可以看到,DirectAU一直在为每个编码器带来显著的改进。此外,当与性能更强大的编码器(如LGCN-2)整合时,DirectAU比默认的MF编码器具有更高的性能。这表明了所提出的学习框架的泛化能力。同时,我们发现对于最简单的MF编码器来说,相对改进是最显著的。在Gowalla数据集中,令人印象深刻的是,MF+DirectAU平均比原始MF改进了59.2%;而LGCN-2+DirectAU只带来了大约8.9%的改进。这验证了选择合适的学习目标在CF中的重要性。在DirectAU损失的帮助下,简单的MF编码器也可以学习高质量的表示,从而获得与复杂的LGCN-2编码器相当的结果。考虑到有效性和效率的平衡,在下面的分析中,我们仍然选择MF作为默认编码器。<br />**表3 不同编码器与提出的DirectAU损失整合时的性能比较**<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656577362591-ebf2d949-5bbc-40b5-807d-343676ad44f1.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=313&id=u3b90c4c1&margin=%5Bobject%20Object%5D&name=image.png&originHeight=469&originWidth=978&originalType=binary&ratio=1&rotation=0&showTitle=false&size=95593&status=done&style=none&taskId=uac756477-a037-4736-8646-d3f0b6aab68&title=&width=652)

    5.5 效率分析(Efficiency Analyses)

    1. 这里我们比较了DirectAUBPRMF和其他两种最先进的CF模型,即ENMFLGCN的训练效率,这两种模型在各自的类别中都是相对有效的。在表4中,我们在最大的数据集Yelp2018上呈现了每个epoch的平均训练时间、要收敛的epoch数以及总训练时间。效率实验是在同一台机器上进行的(3.5 GHzIntel Core 12CPU和单NVIDIA GeForce GTX 1080 Ti GPU)。我们在相同的实现框架下比较不同的方法,并将批次大小设置为256以确保公平性。结果表明,ENMF在每个epoch的训练时间方面是最有效的,这是由于专门设计的学习算法所致。基于图的LGCN由于在每次迭代中的邻域聚和,即使为了简单起见执行线性传播,LGCN的速度也要慢得多。与BPRMFENMF相比,我们的DirectAU每个epoch需要更多的训练时间,这主要是因为计算均匀性损失。然而,DirectAU的收敛速度一般较快,总时间与BPRMFENMF相似,比LGCN快得多。因此,DirectAU因其简单性而相对高效,我们相信性能收益在实践中证明了运行时成本是合理的。<br />**表4 Yelp2018效率比较**,包括每个epoch的平均训练时间、要收敛的epoch数量、总训练时间(s:秒、m:分钟、h:小时)。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656577394020-5e12983b-61dd-474f-abf8-3cbed57aae14.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=203&id=u05b1eb96&margin=%5Bobject%20Object%5D&name=image.png&originHeight=305&originWidth=818&originalType=binary&ratio=1&rotation=0&showTitle=false&size=43339&status=done&style=none&taskId=ub64789c7-d6c9-4b52-98ab-8bf7a1b96ed&title=&width=545.3333333333334)

    5.6 参数敏感度(Parameter Sensitivity)

    1. DirectAU引入了一个超参数![](https://cdn.nlark.com/yuque/__latex/4aa418d6f0b6fbada90489b4374752e5.svg#card=math&code=%5Cgamma&id=PVFu0)来控制均匀性损失的权重。值得注意的是,这是为DirectAU调整的唯一超参数,它不像以前的CF方法那样依赖负采样。因此,不需要考虑负样本的数量和采样策略。这使得DirectAU易于在实际应用程序中使用。图6显示了在三个数据集上更改此超参数时性能如何变化。我们可以观察到类似的趋势,即性能先上升后下降。不同的数据集适合不同程度的均匀性,这取决于数据集的特性。我们发现,对于每个用户平均交互次数更多的数据集(即Gowalla,Yelp2018),更高的均匀性权重可能更好,在这种情况下,由于对齐损失,表示可能更有可能被推得更进。请注意,![](https://cdn.nlark.com/yuque/__latex/4aa418d6f0b6fbada90489b4374752e5.svg#card=math&code=%5Cgamma&id=wkdx4)的范围不受0.2到10的限制,在实践中可能需要更大的范围和细粒度的步骤。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656577436355-f463b41c-97f0-4bdb-afdb-1611949a1c5d.png#clientId=ub6d5d482-594d-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=238&id=u52520260&margin=%5Bobject%20Object%5D&name=image.png&originHeight=357&originWidth=984&originalType=binary&ratio=1&rotation=0&showTitle=false&size=78778&status=done&style=none&taskId=ue9bd07be-5e96-4938-a364-64ea43c3177&title=&width=656)<br />**图6 关于DirectAU中**![](https://cdn.nlark.com/yuque/__latex/775ffcb82393454a6adade03d733756e.svg#card=math&code=l_%7B%5Ctext%20%7Buniform%20%7D%7D&id=H4iw3)**权重的参数敏感度**

    6 相关工作(Related Work)

    6.1 协同过滤(Collaborative Filtering)

    1. 协同过滤在推荐系统中起着重要的作用[20]。CF的核心思想是相似的用户往往有相似的偏好。与基于内容的过滤方法不同,CF不依赖于用户和项目配置文件来进行推荐,因此可以灵活地在不同的领域工作。CF的主要方法之一是潜在因素模型,它从观察到的交互中学习潜在的用户和项目表示。未观察到的用户-项目对的预测分数由用户和项目表示之间的相似性(例如,点积)导出。传统的方法主要基于矩阵分解(MF)[910]。随着神经网络的发展,神经CF模型开始出现,以学习更强大的用户/项目表示[832]。此外,图神经网络近年来引起了越来越多的关注,许多基于图的CF模型被提出[728-30]。将观察到的用户-项目交互看作一个二部图,图神经网络帮助捕获高阶连接信息。<br /> 已有的研究主要集中在编码器的模型结构上,而对学习目标和负采样策略等影响最终性能的因素关注较少。最近的一些工作[2121516]开始研究替代学习范式。例如,ENMF[2]基于全部数据设计了一种有效的方法来优化MSE损失。BUIR[12]提出了一种新的非对称结构来从仅为正的数据中学习。CLRec[15]采用对比学习中的InfoNCE损失来解决推荐系统中的曝光偏差。在这篇文章中,我们还关注CF中的学习目标。不同的是,我们首次从对齐和均匀性的角度研究CF中表示的期望性质。基于分析结果,提出了一种新的直接优化这两个特性的损失函数。

    6.2 对比表征学习中的对齐与均匀性(Alignment and Uniformity in Contrastive Representation Learning)

    1. 近年来,无监督对比表征学习取得了很大的成功[6]。这些文献中的研究通常旨在学习基于自监督任务的单位超球面上的信息表征。最近的工作[27]确定了与表示质量有关的两个关键属性,即对齐和均匀性。相似的实例应该具有相似的表示(对齐),并且表示的分布最好是保留尽可能多的信息(均匀性)。对齐通常很容易实现(例如,将所有输入映射到相同的表示),但很难同时保持均匀性。可以看出,以前的表示学习策略以不同的方式保持均匀性,例如区分负样本[5]和特征去相关[31]。直接匹配单位超球面上的均匀采样点也能提供良好的表示[1]。然而,据我们所知,目前仍缺乏对CF的对齐和均匀性的深入研究。这项工作从理论上说明了典型的BPR损失与这两个特性之间的联系。此外,我们对不同CF方法的学习动态的分析有助于理解现有CF习方法的理论基础,并设计新的学习目标。

    7 讨论(Conclusion)

    1. 在这篇文章中,我们研究了协同过滤(CF)中表示的期望性质。具体地说,受对比表征学习的最新进展启发,我们提出从对齐和均匀性的角度来衡量对比表征的质量。我们首先从理论上揭示了通常采用的BPR损失与这两个特性之间的联系。然后,我们从对齐和均匀性两个方面对典型CF方法的学习动态进行了实证分析。我们发现,不我们发现不同的方法在不同的方面可能是好的,而更好的对齐或更好的均匀性都会导致更高的推荐性能。在分析结果的基础上,提出了直接优化这两个特性的损失函数,并通过实验验证了该函数的有效性。使用所提出的损失函数的简单矩阵因式分解模型与最先进的CF方法相比获得了更好的性能。我们希望这项工作能够通过对表征质量的深入分析来启发CF社区更多地关注学习范式。<br /> 在未来,我们将研究其他也有利于对齐和均匀性的学习目标,以进一步提高有效性和效率。

    附录(Appendix)

    1. 在附录中,我们首先给出了所提出的DirectAU的学习算法。然后,我们详细说明了在CF中测量整个学习嵌入时对齐和均匀性损失的计算。

    A.1 DirectAU的学习算法(Learning Algorithm of DirectAU)

    1. 算法1显示了DirectAU的学习算法。还给出了计算训练过程中对齐和均匀性损失的PyTorch风格伪代码,以便于再现性。<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/12451788/1656657239685-b0787203-a1ac-4fe2-8231-99c8e6ae3afe.png#clientId=uc2feced7-89d3-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=417&id=u32f63ac6&margin=%5Bobject%20Object%5D&name=image.png&originHeight=626&originWidth=705&originalType=binary&ratio=1&rotation=0&showTitle=false&size=137641&status=done&style=none&taskId=uf2f074f5-8529-47de-8d80-c14fc79801d&title=&width=470)

    A.2 对齐和均匀性计算(Alignment and Uniformity Calculation)

    1. 根据我们对CF中对齐和均匀性的定义,即等式(6),用于计算对齐损失的用户-物品对应从正交互作用![](https://cdn.nlark.com/yuque/__latex/ef29df3722f4bf103c76701c1e8b9345.svg#card=math&code=p_%7Bpos%7D&id=oG6nO)s的分布中采样,而计算均匀性损失的用户-用户(物品-物品)对应从相应的用户/物品分布![](https://cdn.nlark.com/yuque/__latex/b2c9ad62cfc6898c7a6e35d9a1b470af.svg#card=math&code=p_%7B%5Ctext%20%7Buser%20%7D%7D%20%2F%20p_%7B%5Ctext%20%7Bitem%20%7D%7D&id=vY2aU)中采样。给定所有用户和项目的学习嵌入,对齐损失可以直接计算如下:<br />![](https://cdn.nlark.com/yuque/__latex/3cad92b33ef2a1e33f3ad992f2ed51fd.svg#card=math&code=l_%7B%5Ctext%20%7Balign%20%7D%7D%3D%5Cfrac%7B1%7D%7B%7C%5Cmathcal%7BR%7D%7C%7D%20%5Csum_%7B%28u%2C%20i%29%20%5Cin%20%5Cmathcal%7BR%7D%7D%5C%7Cf%28%5Ctilde%7Bu%7D%29-f%20%5Ctilde%7B%28i%29%7D%5C%7C%5E%7B2%7D&id=tSObm) (8)<br />其中![](https://cdn.nlark.com/yuque/__latex/36f76032a83c9a35ab17dc424bde280c.svg#card=math&code=%5Cmathcal%7BR%7D&id=gwuwD)是第2.1节中提到的观察到的用户-项目交互的集合。我们只需要遍历![](https://cdn.nlark.com/yuque/__latex/36f76032a83c9a35ab17dc424bde280c.svg#card=math&code=%5Cmathcal%7BR%7D&id=DUNj4)中的所有![](https://cdn.nlark.com/yuque/__latex/1836927a10cc781ef311ad57909b9fbe.svg#card=math&code=%28u%2Ci%29&id=eIlG0)对,时间复杂度为![](https://cdn.nlark.com/yuque/__latex/d220c3c89de0d0c56e36e03c3220b574.svg#card=math&code=O%28%7C%5Cmathcal%7BR%7D%7C%29&id=EneZg)。<br /> 至于均匀度的计算,一种简单直观的方法是采样![](https://cdn.nlark.com/yuque/__latex/77c3adce895348f6083c425fe1ba2624.svg#card=math&code=u&id=xyejV),![](https://cdn.nlark.com/yuque/__latex/ed33c2d4bc37bec6502b7a5849b2641d.svg#card=math&code=u%5E%7B%5Cprime%7D%20%5Cin%20%5Cmathcal%7BU%7D&id=X68Fd)和![](https://cdn.nlark.com/yuque/__latex/2443fbcfeb7e85e1d62b6f5e4f27207e.svg#card=math&code=i&id=nQWUt),![](https://cdn.nlark.com/yuque/__latex/4ff6a4a92fbaee375294428e2c236258.svg#card=math&code=i%5E%7B%5Cprime%7D%20%5Cin%20%5Cmathcal%7BI%7D&id=Hq3Uv),但这不符合![](https://cdn.nlark.com/yuque/__latex/972b195c3247539dcf8e994c1f65622a.svg#card=math&code=u%2C%20u%5E%7B%5Cprime%7D%20%5Csim%20p_%7B%5Cmathrm%7Buser%7D%7D&id=Ywv1O)和![](https://cdn.nlark.com/yuque/__latex/93346897927e9c57b19b2a2891d16770.svg#card=math&code=i%2C%20i%5E%7B%5Cprime%7D%20%5Csim%20p_%7B%5Cmathrm%7Bitem%7D%7D&id=KMVFx)的定义。请注意,训练期间均匀性损失的计算遵循实际的![](https://cdn.nlark.com/yuque/__latex/930b699f49c7025e2b500cd686a4e0a2.svg#card=math&code=p_%7B%5Cmathrm%7Buser%7D%7D&id=n1tpn)和![](https://cdn.nlark.com/yuque/__latex/88534958e482ffe4453438b04907a1c8.svg#card=math&code=p_%7B%5Cmathrm%7Bitem%7D%7D&id=osept),因为训练批次是基于正交互构建的。在测量学习嵌入的整体均匀性时,我们还应该从![](https://cdn.nlark.com/yuque/__latex/36f76032a83c9a35ab17dc424bde280c.svg#card=math&code=%5Cmathcal%7BR%7D&id=thR7Y)中采样两个交互,并保留用户/项目侧作为输入对,这确保从相应的分布中采样![](https://cdn.nlark.com/yuque/__latex/98662d4b1d0656f240762331de32cfdd.svg#card=math&code=u%2C%20u%5E%7B%5Cprime%7D&id=E7KLV)和![](https://cdn.nlark.com/yuque/__latex/97175fb43c7a543a88cd28b086e88a64.svg#card=math&code=i%2C%20i%5E%7B%5Cprime%7D&id=QVeI5):<br />![](https://cdn.nlark.com/yuque/__latex/c61ec3a5ecf3371f2a7a70cd6cb7dfcf.svg#card=math&code=%5Cbegin%7Baligned%7D%0Al_%7B%5Ctext%20%7Buniform%20%7D%7D%3D%26%5Cleft%28%5Clog%20%5Cfrac%7B1%7D%7B%7C%5Cmathcal%7BR%7D%7C%28%7C%5Cmathcal%7BR%7D%7C-1%29%7D%20%5Csum_%7B%28u%2C%20i%29%2C%5Cleft%28u%5E%7B%5Cprime%7D%2C%20i%5E%7B%5Cprime%7D%5Cright%29%20%5Cin%20%5Cmathcal%7BR%7D%7D%20e%5E%7B-2%20%5C%7C%20f%28u%29-%5Cleft.f%5Cleft%28u%5E%7B%5Cprime%7D%5Cright%29%5Cright%7C%5E%7B2%7D%7D%5Cright%29%20%2F%202%2B%5C%5C%0A%26%5Cleft%28%5Clog%20%5Cfrac%7B1%7D%7B%7C%5Cmathcal%7BR%7D%7C%28%7C%5Cmathcal%7BR%7D%7C-1%29%7D%20%5Csum_%7B%28u%2C%20i%29%2C%5Cleft%28u%5E%7B%5Cprime%7D%2C%20i%5E%7B%5Cprime%7D%5Cright%29%20%5Cin%20%5Cmathcal%7BR%7D%7D%20e%5E%7B-2%7C%7C%20f%28i%29-f%5Cleft%28%5Ctilde%7Bi%7D%5E%7B%5Cprime%7D%5Cright%29%20%5C%7C%5E%7B2%7D%7D%5Cright%29%20%2F%202%20%0A%5Cend%7Baligned%7D&id=JeIDN) (9)<br /> 同时,这种计算方法耗时且包含许多冗余计算。我们需要遍历整个交互集![](https://cdn.nlark.com/yuque/__latex/36f76032a83c9a35ab17dc424bde280c.svg#card=math&code=%5Cmathcal%7BR%7D&id=DzCSQ)两次,时间复杂度为![](https://cdn.nlark.com/yuque/__latex/c6b232265b897b4694f5328626f031a2.svg#card=math&code=O%5Cleft%28%7C%5Cmathcal%7BR%7D%7C%5E%7B2%7D%5Cright%29&id=fBdPr),这在实践中通常是很难处理的。为了解决这个问题,我们设计了一种方法,通过直接从用户/项目集合中采样来计算均匀性损失,并结合流行度加权策略来计算均匀性损失:<br />![](https://cdn.nlark.com/yuque/__latex/0865a64a1015b424774866c91eb0aa0b.svg#card=math&code=%5Cbegin%7Baligned%7D%0Al_%7B%5Ctext%20%7Buniform%20%7D%7D%3D%26%5Cleft%28%5Clog%20%5Csum_%7Bu%2C%20u%5E%7B%5Cprime%7D%20%5Cin%20%5Cmathcal%7BU%7D%7D%20%5Cfrac%7Bp%28u%29%20p%5Cleft%28u%5E%7B%5Cprime%7D%5Cright%29%7D%7BP_%7BU%7D%7D%20%5Ccdot%20e%5E%7B-2%20%5C%7C%20f%20%5Ctilde%7B%28u%29-f%5Cleft%28%5Ctilde%7Bu%5E%7B%5Cprime%7D%7D%5Cright%29%5C%7C%5C%7C%5E%7B2%7D%7D%7D%5Cright%29%20%2F%202%2B%5C%5C%0A%26%5Cleft%28%5Clog%20%5Csum_%7Bi%2C%20i%5E%7B%5Cprime%7D%20%5Cin%20%5Cmathcal%7BI%7D%7D%20%5Cfrac%7Bp%28i%29%20p%5Cleft%28i%5E%7B%5Cprime%7D%5Cright%29%7D%7BP_%7BI%7D%7D%20%5Ccdot%20e%5E%7B-2%5Cleft%5C%7C%5Ctilde%7B%28i%29%7D-f%5Cleft%28i%5E%7B%5Cprime%7D%5Cright%29%5Cright%5C%7C%5E%7B2%7D%7D%5Cright%29%20%2F%202%2C%0A%5Cend%7Baligned%7D&id=VsOxJ) (10)<br />其中![](https://cdn.nlark.com/yuque/__latex/303220311ec6c748b0c45766d3eb824a.svg#card=math&code=p%28%5Ccdot%29&id=RZp4j)返回![](https://cdn.nlark.com/yuque/__latex/36f76032a83c9a35ab17dc424bde280c.svg#card=math&code=%5Cmathcal%7BR%7D&id=tC4Yc)中相关交互的数量(即流行度)。![](https://cdn.nlark.com/yuque/__latex/de0d1ea42995f506d184e82788379354.svg#card=math&code=P_%7BU%7D%3D%5Csum_%7Bu%20%5Cin%20%5Cmathcal%7BU%7D%7D%20p%28u%29&id=QdzTr)和![](https://cdn.nlark.com/yuque/__latex/ccfba674bbe05cc42e645b5dead185a3.svg#card=math&code=P_%7BI%7D%3D%5Csum_%7Bi%20%5Cin%20%5Cmathcal%7BI%7D%7D%20p%28i%29&id=bp90e)分别是归一化因子。很容易证明等式(9)和等式(10)是完全等价的,而公式(10)在很大程度上降低了计算成本,因为![](https://cdn.nlark.com/yuque/__latex/4dbe52251f17f98219c2db5f04effdb9.svg#card=math&code=%5Cmathcal%7BU%7D%20%2F%20%5Cmathcal%7BI%7D&id=ym5Ca)的规模通常比![](https://cdn.nlark.com/yuque/__latex/36f76032a83c9a35ab17dc424bde280c.svg#card=math&code=%5Cmathcal%7BR%7D&id=sjdIF)小得多。这样,我们可以有效地测量学习到的嵌入的对齐和均匀性。<br /> 这种流行度加权策略还明确地表明,均匀性损失更关注热门用户/项目之间的距离,这与预期不谋而合。那些受欢迎的用户和物品更有可能排列得非常接近,鼓励他们分散在超球面上是合理的。