统计推荐算法模块

  • 根据已经存储与 MongoDB 中的 movierating 数据集,统计历史热门电影、最近热门电影、电影的平均评分、电影每种类别中的 top10 电影
  • 构建的目标:
    • 历史热门电影
      • 定义:根据所有历史评分数据,计算历史评分次数最多的电影
    • 最近热门电影
      • 定义:根据评分,按月为单位计算最近时间的月份里面评分数最多的电影集合
    • 电影的平均评分
      • 定义:根据历史数据中所有用户对电影的评分,周期性的计算每个电影的平均得分
    • Top10:
      • 定义:根据提供的所有电影类别,分别计算每种类型的电影集合中评分最高的 10 个
  • 实现:Spark-SQL