余弦

image.png

余弦相似度

余弦值越接近1 表明夹角越接近0 则两个向量越相似

公式

image.png

坐标表示

image.png
image.png

余弦相似度只与向量方向有关 但向量在某个维度会有数据缺失

皮尔逊相关系数image.png

  1. 皮尔逊相关稀疏是余弦相似度在维度确实情况下的一种改进
  2. 每个向量的每个维度都减去一个平均值 称为中心化
  3. 皮尔逊相关系数是在计算余弦值之前对每个向量进行中心化

    应用场景

  4. 文本相似度

  5. 用户相似度
  6. 物品相似度

    相似相似度算法有很多

  7. 余弦相似度

  8. 欧式距离

    1. image.png

      余弦相似度和欧式距离区别

  9. 欧式距离体现个体数值特征的绝对差异

  10. 余弦相似度是从方向上区分差异, 对绝对数值特征不敏感
  11. 余弦相似度 : 用户兴趣相似度 欧式距离: 用户行为指标相似度