推荐问题 - 基于豆瓣电影的推荐方法研究 - 《推荐系统》

数据集

movie: Movie_id Name Genres Storyline Tags
rating: Rating_id User_id Movie_id Rating Rating_time

基础字段：标题内容标签所属分类
交互数据：浏览时长点赞评分评论下载订阅收藏

将1部所收集的隐式反馈数据，通过函数映射到显示的评分数据：

基于豆瓣电影的推荐方法研究 - 图1

整理数据集，获得每个用户的评分记录，按照时间顺序排列
将电影向量化表示。使用 gensim提供的word2vec方法，将文本向量化，并使用PCA进行降维。 name 用10维表示，storyline 用50维表示，tags 用10维表示
划分数据集，并构造测试集。构造推荐单元，将每个用户观看的前20部电影（评分大于等于4分的），作为用户的先验数据，将后面的电影（得分大于等于4分的），混合其他19部电影，作为候选池
建立相似度计算模型
进行推荐实验，评估Top-K的实验结果，寻找合适的K值，并分配name、storyline、tags这三部分的权重占比。

优点：

缺点：

整理数据集，获得每个用户的评分记录，按照时间顺序排列
将电影向量化表示。使用 gensim提供的word2vec方法，将文本向量化，并使用PCA进行降维。 name 用10维表示，storyline 用50维表示，tags 用10维表示
划分数据集，并构造测试集。构造推荐单元，将每个用户观看的前20部电影（评分大于等于4分的），作为用户的先验数据，将后面的电影（得分大于等于4分的），混合其他19部电影，作为候选池
计算模型

预估评分：基于豆瓣电影的推荐方法研究 - 图2

其中：基于豆瓣电影的推荐方法研究 - 图3

用户偏好的矩阵描述就是 A

使用logistics回归，loss函数为：
基于豆瓣电影的推荐方法研究 - 图4