当应用于在线旅行平台(例如Fliggy)时,一般的推荐算法更具挑战性,因为很难找到用户具有与旅行场景相似行为的跨域且尚未给用户的基于位置的服务(LBS)信息足够的重视。在本文中,我们为用户冷启动推荐提出了一个基于LBS的异构关系模型(LHRM),该模型利用相关域(例如淘宝)中用户的LBS信息和行为信息以及旅行平台(例如Fliggy)中的用户行为信息构建用户和项目之间的异构关系。此外,基于注意力的多层感知器被应用于提取用户和项目的隐变量。通过这种方式,LHRM具有比现有方法更好的泛化性能。

一、简要信息

序号 属性
1 论文模型 LHRM
2 所属领域 推荐系统
3 研究内容 cross-domain; Location Based Services; travel scenarios; cold start
4 核心内容 用户冷启动问题
5 论文PDF 2020ICONIP-A LBS Based Heterogeneous Relations Model for User Cold Start Recommendation in Online Travel Platform.pdf
6 GitHub代码

二、研究背景

推荐系统(RSs)旨在提高点击率(CTR),点击后转化率(CVR)和在应用程序中的停留时间。当前大多数RS都基于这样的直觉,即可以根据用户的历史行为或具有类似偏好的其他用户来推断用户的兴趣[21]。然而,推荐算法通常面临数据稀疏和冷启动问题,因此RS不能保证很高的推荐准确性[6,7]。
冷启动问题是指在没有用户或项目[10,12,14]的先前交互可用时进行推荐,在本文中,作者关注用户冷启动问题。已经存在的研究包括跨域推荐算法[6,9,17,19,20],低秩线性自动编码器(LLAE)[11]在内的现有方法,并成功解决了用户冷启动问题。
但是,在线旅游平台(例如Fliggy)上的用户冷启动推荐更具挑战性,因此现有方法无法很好地发挥作用。 LLAE [11]可以从用户属性重建用户行为,但是即使对于活跃用户,出行也是一种低频需求,用户行为相当稀疏。因此,LLAE的泛化性能受到用户稀疏行为的限制。跨域算法尝试利用来自多个辅助域的显式或隐式反馈来提高目标域中的推荐性能[6]。不幸的是,很难找到用户具有与出行场景相似的行为的跨域,并且用户的LBS信息尚未得到足够的重视。无条件融合来自其他域的用户行为信息可能会引入很多噪声。
更重要的是,用户的出行意图与用户的LBS信息密切相关。直觉是,地理位置较近的用户可能会有类似的出行意图。为了缓解旅行场景中的用户冷启动问题,作者提出了一种基于LBS的异构关系模型(LHRM),用于在线旅行平台中的用户冷启动推荐。
LHRM首先构造用户和物品之间的异构关系,然后应用基于注意力的多层感知器来学习用户和物品的隐因子。在[2]中提出了异构关系,其中包括用户-用户耦合,项目-项目耦合和用户-项目耦合。人们日益认识到,对这样的多个异构关系进行建模对于理解RS的非IID性质和特性至关重要[2,3]。为了减轻数据稀疏的问题,在相关域(例如淘宝网)中特定类别的项目中的用户行为信息被用来学习用户的嵌入表示。背景是,超过80%的Fliggy用户拥有淘宝平台帐户,其中大多数是Fliggy的冷启动用户,但他们在淘宝上的行为丰富。然后,将淘宝域中特定类别的商品中的LBS信息和用户行为信息进行串联,以构建用户之间的异构关系。Fliggy域中的用户行为信息用于构造项目之间的异构关系。同时,用户属性被映射到Fliggy域中的用户行为空间。在获得用户和物品的辅助信息和嵌入表示后,基于注意力机制的多层感知器将应用于提取更高级别的功能,并为Fliggy中的冷启动用户提供更准确的推荐结果。

三、相关工作

跨域[5,6,8,9,17,19]推荐算法近年来引起了很多关注,它们利用来自多个辅助域的显式或隐式反馈来提高目标域中的推荐性能。 [6]提出了一种基于评论和内容的深度融合模型(RC-DFM),该模型包含四个主要步骤:评论和项目内容的矢量化,隐因子的生成,用户隐因子的映射以及跨域推荐。通过这种方式,学习到的用户和项目隐因子可以保留更多的语义信息。 [8]提出了协作跨网络(CoNet),它可以通过引入从一个基础网络到另一个基础网络的交叉连接来学习复杂的用户-项目交互关系,并实现跨域的双重知识转移。 [19]将在线购物域与来自广告平台的信息相结合,然后应用深度学习基于这两个域的共享用户来构建跨域推荐系统,以缓解用户冷启动问题。
Servel最近的工作为用户属性和用户行为之间的关系建模。假设具有相似偏好的人会具有相似的消费行为,[11]提出了零样本学习(ZSL)方法来解决冷启动问题低秩线性自动编码器(LLAE)由两部分组成,低秩编码器将用户行为映射到用户属性,而对称解码器根据用户属性重建用户行为。 LLAE考虑到效率,因此适合大规模问题。
文献[16]提出了一种非个性化的推荐算法。作者假设,结合不同的非个性化RS可以比传统用户更好地征服大多数新用户。 [16]提出了两个RS,以在面向画像的维度上平衡推荐。 MaxCoverage和Category-Exploration旨在探索用户覆盖面,以使推荐的商品多样化并征服更多的新用户。

四、主要思想

作者将冷启动用户定义为在过去一个月中没有对Fliggy进行任何操作的用户。
为了将用户的LBS信息(例如纬度和经度)映射到一个范围,作者使用了Geohash算法[18]。

基于LBS的异构关系模型

用户的兴趣可以从历史行为或具有类似偏好的其他用户中推断出来,并可以从异构关系中受益。此外,用户的出行意图与用户的LBS信息(例如纬度和经度)密切相关,这是基于直觉,即地理位置较近的用户可能具有相似的出行意图。为此,我们提出了基于LBS的异构关系模型(LHRM),其中LBS信息用于构建用户之间的异构关系。 LHRM的框架如图1所示。 LHRM包含两个模块:异构关系构建模块和表示学习模块。
image.png

异构关系构建模块

构造用户和项目之间的异构关系的详细过程显示在图2。
image.png
可以看到,用户的历史行为序列和淘宝网域中的LBS序列被连接起来,并输入到嵌入层中,该层是由skip-gram算法预先训练的[13]。具体来说,通过geohash5算法将与旅行无关的项目过滤掉,并将用户的纬度和经度信息映射到长度为5的字符串。在嵌入层之后,我们采用平均池来生成用户的相应向量表示。为了生成不同的用户组,我们利用K-means算法根据用户的表示向量对用户进行聚类。对于每个用户组,可以将任何用户视为目标用户,将其他用户视为目标用户的朋友。
目标用户在Fliggy域中进行交互的每个项目都被视为目标项目。整个候选项目集包含两部分:项目由目标项目通过项目-项目(i2i)调用的项目以及用户组中所有用户交互的项目来构建。最后,根据目标项目的主题过滤候选集中的项目,并生成项目组。这样,项目组中的所有项目都更加相关,并且可以用Fliggy域中的预训练项目嵌入向量表示。

表征学习模块

基于注意力机制的多层感知器用于学习用户和项目的隐因子。

image.png
image.png
注意力机制层输出:
image.png
最后的点积层输出:
image.png
其中,LHRM: A LBS Based Heterogeneous
Relations Model for User Cold Start
Recommendation in Online Travel Platform - 图7是MLP层输出。
最后,LHRM的loss为:
image.png
算法过程如下:
image.png

五、实验评估

数据集

为了评估所提出的方法,作者收集了过去一个月来自Fliggy和淘宝网域的离线日志数据作为数据集。通常,展现并点击的样本为正样本,展现而不点击的样本为负样本。
统计情况如下表:
image.png

比较基准

  • Hot:Hot是一种非个性化的推荐算法,它根据Fliggy域中商品的受欢迎程度得分向新用户推荐商品。
  • HERS:文献[9]提出了一种异构关系嵌入式推荐系统(HERS),该系统基于ICAU,通过考虑用户-用户和项目-项目的影响来建模和解释用户-项目交互的潜在动机,并可以有效地处理冷启动问题。
  • MaxCov:Max-Coverage(MaxCov)[16]是一种非个性化的推荐算法,旨在探索用户覆盖面,以使推荐的商品多样化并征服更多的首次使用用户。
  • LHRM

项目的受欢迎程度分数是推荐冷启动的重要因素,因此,在实验中实施LHRM和HERS时,我们将项目的受欢迎程度分数与LHRM和HERS的输出进行融合。然后,在公式中计算最终偏好得分。
image.png

评估指标

  • Hit Rate:HR @ 30,@ 50,@ 100,@ 200
  • NDCG:NDCG @ 30,@ 50,@ 100, @ 200

    实验设置

    将用户组和项目组的最大长度设置为10。聚集中心的数量设置为1000。用户和项目的隐因子的维数是一个超参数,我们将其设置为32、64、128和256做实验。

    实验结果

    在表2中显示了不同模型的实验结果。在所有方法中,LHRM在所有指标方面均达到最佳性能。具体而言,当用户和项目的隐因子的维数设置为32时,HR和NDCG最高。
    image.png
    表2显示了目标项目的HR和NDCG,所有现有方法在冷启动用户上均无法很好地发挥作用。通常,在实际应用中,我们不仅在乎用户是否会点击推荐的项目,还在乎推荐项目是否与目标项目有关。
    因此,作者评估与目标项目相关程度不同的不同模型的命中率。实验结果如图3所示。我们可以看到,LHRM-32很有竞争力,根据推荐项目是否与目标项目相同,MaxCov在计算命中率时表现最佳。
    image.png

    八、其他

    Geohash算法

    GeoHash是一种地址编码方法,能够把二维的空间经纬度数据编码成一个字符串。
    参考:https://www.jianshu.com/p/2fd0cf12e5ba

    总结

    在本文中,作者指出了旅行平台中用户冷启动推荐的两个挑战:i)很难找到用户具有与旅行场景相似行为的跨域; ii)用户的LBS信息尚未得到足够的重视。为了解决这个问题,我们提出了基于LBS的异构关系模型。 LHRM利用淘宝域中用户的LBS信息和行为信息以及Fliggy域中的用户行为信息来构建用户与项目之间的异构关系。此外,基于注意力的多层感知器被应用于提取用户和项目的隐因子。来自Fliggy离线日志的真实数据的实验结果证明了LHRM的有效性。