原理

用途

    1. 相似度度量问题:给定DocA,DocB,判定DocA和DocB的相似度。(各计算simhash之后,使用海明距离)
    1. 数据聚类问题:给定一批文档DocA,DocB,DocC,DocD,及变异后的DocA,DocB,DocC,DocD,找到各自变异前的文本,判定其中两两合并相似TopN=1。

image.png

  • 计算公式:如上,略。

image.png

  • 对每个单词生成一个hashCode
  • 注意已经被Google申请了专利.