推荐系统概论

背景
推荐系统测评
- 测评方法
- 测评指标

背景

信息过载问题的解决方案

分类目录：将著名的网站分门别类，从而方便用户根据类别查找网站。
搜索引擎：用户通过搜索关键词找到自己需要的信息（用户可能无法准确描述自己需求的关键词）。

推荐系统定义
在信息过载且用户没有明确需求的背景下，推荐系统通过分析用户的历史行为对用户的兴趣建模，从而主动给用户推荐能够满足他们兴趣和需求的信息。

长尾理论
在互联网的条件下，不热门的商品数量和销售额不容小觑，也许会超过热门的商品。长尾商品代表了一小部分用户的个性化需求。因此如果要发掘长尾提高销售额，就必须充分研究用户的兴趣。

推荐系统测评

测评方法
离线实验：将用户日志划分为训练集和测试集，在训练集上训练用户的兴趣模型，在测试集上测试。
用户调查：需要尽量保证测试用户分分布和真实的用户分步相同，尽量保证是双盲实验。
在线实验：AB测试通过一定的规则将用户随机分成几组，并对不同组的用户采用不同的算法，通过统计评测指标比较不同的算法。

测评指标
用户满意度：通过购买率、点击率、用户停留时间等指标衡量。

屏幕快照 2020-06-10 下午12.53.45.png

预测准确率：RMSE，MAE，Precision，Recall

屏幕快照 2020-06-10 下午12.53.55.png
屏幕快照 2020-06-10 下午12.54.06.png

覆盖率：

推荐给所有用户的所有商品集合大小/总商品集合大小：
屏幕快照 2020-06-10 下午12.56.52.png
覆盖率100%：推荐系统将每个物品都推荐给了至少一个用户
另外，还可以通过研究物品在推荐列表中出现次数的分布描述推荐系统挖掘长尾的能力。如果这个分布较平，说明推荐系统的覆盖率较高，如果这个较陡峭，说明推荐系统的覆盖率较低。
信息熵：
屏幕快照 2020-06-10 下午12.57.04.png
熵越高说明物品流行度分布越平均，推荐系统的覆盖率越高。
基尼指数：
屏幕快照 2020-06-10 下午12.57.15.png
基尼指数越小说明物品流行度分布越平均，推荐系统的覆盖率越高。
（马太效应：强者更强，弱者更弱。PageRank具有马太效应。）