https://blog.csdn.net/leitouguan8655/article/details/80589654
趋势计算使用余弦
如某T恤从100块降到了50块(A(100,50)),某西装从1000块降到了500块(B(1000,500)),那么T恤和西装都是降价了50%,两者的价格变动趋势一致,可以用余弦相似度衡量,即两者有很高的变化趋势相似度,但是从商品价格本身的角度来说,两者相差了好几百块的差距,欧氏距离较大,即两者有较低的价格相似度。
这个例子中我们主要比较的是变化趋势,和具体的数值大小无关
数值为主要影响的时候用欧式
如果要对电子商务用户做聚类,区分高价值用户和低价值用户,用消费次数和平均消费额,这个时候用余弦夹角是不恰当的,因为它会将(2,10)和(10,50)的用户算成相似用户,但显然后者的价值高得多,因为这个时候需要注重数值上的差异,而不是维度之间的差异。
在这个时候不同维度的数值影响很大,不能算余弦
协同计算
两用户只对两件商品评分,向量分别为(3,3)和(5,5),显然这两个用户对两件商品的偏好是一样的,但是欧式距离给出的相似度显然没有余弦值合理。
有些用户可能就打3分,但是不代表他不喜欢,比如他看了一个电影很多次,才打了3分,我们也可以认为他是喜欢这个电影的。那么当他对另外一个电影也只打了3分,那么可以说他应该是喜欢这个电影的吧。
