余弦相似度关注的是两个向量之间的夹角,因此余弦相似度适用于绝对大小很大,但是实际上很相似的内容。例如:两个文本之间的长度差距虽然很大,但是内容相似,如果采用词向量作为特征,它们在特征空间中的欧式距离通常很大;而使用余弦相似度的话,它们的夹角很小,因此表现出相似度很高。