推荐系统的关键元素

推荐系统基本知识 - 图1

数据

数据分类

用户
1. 用户信息
2. 用户行为
  1. 显式反馈
  2. 隐式反馈
3. 用户关系
  1. 显式关系
  2. 隐式关系
物品

推荐算法
基于流行度的推荐算法
基于协同过滤的推荐算法(重点)
基于内容的推荐算法
基于模型的推荐算法
混合算法

领域知识
不通行业有自己的知识体系使用不同的推荐放啊

UI
推荐结果的最终呈现给用户的展示位置提供了哪些信息
不同物品的推荐根据用户的关注点展现的方案也要不同

推荐系统的思维模式
不确定的思维 (概率)
目标思维

推荐算法的分类

大纲
基于关联规则的推荐算法
1. Apriori 关联分析算法
  1. 无监督学习
  2. 数据量大运行效率很低
2. Fp-Growth 关联分析算法
3. 应用场景(购物篮购物车的分析)
基于内容的推荐算法
1. 打标签
2. 文本相似度(TF-IDF 算法提取关键词)
3. 分类算法
  1. knn
  2. 决策树
    1. 随机森林
    2. XGBoost
  3. 线性分类算法
    1. 逻辑回归
    2. SVM
  4. 朴素贝叶斯算法
4. 比如文章推荐
基于协同过滤的推荐算法 (通过人与人物与物)
1. 基于用户的推荐（兴趣相近的用户会对同样的物品感兴趣）
2. 基于物品的推荐 (推荐用户他们喜欢的物品相似的物品)
3. 基于模型的推荐（要基于用户的方式不能简单推荐相似物品）
  1. SVD/SVD++ 模型
  2. 基于概率的矩阵分解(PMF)
  3. 隐语义模型(LFM)
基于模型的推荐算法
1. 深度学习
  基于协同过滤的推荐系统不同方式区别
  | | 基于用户的协同过滤 | 基于物品的协同过滤 | | —- | —- | —- | | 性能 | 适用于用户较少的场合 | 适用于物品少于用户的场合 | | 领域 | 用户个性化不明显 | 个性化需求强烈 | | 实时性 | 用户新型为不一定引起推荐变化 | 用户新型为必定引起推荐变化 | | 冷启动 | 需要一段时间的离线计算 | 新用户对物品产生行为即可以推荐 |

基于协同过滤的推荐算法优缺点

缺点:

数据稀疏性和冷启动的问题

有点
挖掘用户的潜在兴趣
仅需要评分矩阵来训练矩阵分解模型
协同过滤
SVD++ 是最流行的协同过滤模型(解决数据稀疏的问题)
基于概率的矩阵分解PMF(解决SVD过于复杂的问题)
spark内置的推荐算法是基于隐语义模型的协同过滤 (ALS)

混合推荐算法

加权的混合(重新分配权重)
分层的混合多种推荐算法
分区的混合多种推荐机制将不同的推荐结果份不同的区推荐

推荐系统常见的问题
冷启动
数据稀疏
不断变化的用户喜好
不可预知

冷启动
用户冷启动给新用户做个性推荐
物品冷启动把新的物品推荐个特定的用户
系统冷启动新系统让用户感受到个性化推荐

冷启动的解决方案

用户冷启动
根据用户的注册信息对用户进行分类
推荐热门的排行榜
基于深度学习的语义模型
引导用户把自己的属性表达出来
利用用户在社交媒体的信息

物品冷启动
文本分析
主题模型(训练出模型)
给物品打标签
推荐排行榜单

数据稀疏解决
降低矩阵维数能降低(奇异值分解 PCA分解)
1. 降低矩阵维数会丢失有效数据但是是主要解决办法
假设用户对其感兴趣物品相似的物品也感兴趣(数据填充)
1. 固定填充没有考虑到项目的属性对推荐带来偏差
基于深度学习的语义理解模型

推荐系统效果评测方案
模型离线实验
A/B Test 在线实验
用户调研和用户反馈

模型离线实验
将数据集分为训练集和测试集
训练集训练模型测试集进行预测
通过预测结果来评估精确度准确度等等

优缺点:
1. 优点无真实用户参与
缺点依赖给定的用户数据集无法获取业务关心的指标

A/B Test 在线实验
A/B Test 在线实验是以正交分桶为基础
根据分桶执行不同的算法得出差异化的指标
取其中较优的算法

用户调研
预测准确率高不代表用户满意度高
用户调研需要一些真实的用户需要他们完成一些的任务
缺点是用户调研成本高一般情况下很难进行大规模的用户调查
评测指标

覆盖率

推荐系统基本知识

推荐系统的关键元素

数据

数据分类

推荐算法

领域知识

UI

推荐系统的思维模式

推荐算法的分类

大纲

基于协同过滤的推荐系统不同方式区别

基于协同过滤的推荐算法优缺点

缺点:

有点

协同过滤

混合推荐算法

推荐系统常见的问题

冷启动

冷启动的解决方案

用户冷启动

物品冷启动

数据稀疏解决

推荐系统效果评测方案

模型离线实验

优缺点:

A/B Test 在线实验

用户调研

评测指标