外围架构

通过分析用户的行为日志,给用户生成推荐列表,最终展示到网站的界面上。
未命名文件.jpg
推荐系统和其他系统之间的关系图
UI部分主要包括物品的标题、缩略图、介绍和推荐理由等。
关于数据的收集和存储,从实时存取的角度看,购买、收藏、评论、评分、分享等行为都是实时存取的,因为只要用户有了这些行为,界面上就需要体现出来。比如用户购买了商品后,用户的个人购买列表中就应立即显示用户购买的商品。而有些行为,如浏览网页的行为就不需要实时存取。
一般来说,需要实时存取的数据存储在数据库的缓存中,而大规模的非实时存取数据存储在分布式文件系统(HDFS)中。

推荐系统构架

为了统筹考虑各种特征,推荐系统需要由多个推荐引擎组成,每个推荐引擎负责一类特征和一种任务,而推荐系统的任务只是将推荐引擎的结果按照一定的权重或优先级合并、排序然后返回。
未命名文件-2.jpg
推荐系统构架图

推荐引擎构架

生成用户特征向量

  1. 用户的行为种类:用户付出的代价越大的行为权重越高
  2. 用户行为产生的时间:用户近期的行为权重较高
  3. 用户行为的次数:行为次数多的物品的权重越高
  4. 物品的人们程度:加重不热门物品的特征权重

    特征-物品的相关推荐算法

    过滤模块

  5. 过滤掉用户已经产生过行为的数据

  6. 过滤掉用户选定区间(价格区间)以外的物品
  7. 过滤掉某些质量很差的物品

    排名模块

    按照新颖性、多样性等指标排序