原理
- SimHash是快速计算两个集合有多相似所用的技术具体细节可以参考:https://en.wikipedia.org/wiki/SimHash
用途
- 相似度度量问题:给定DocA,DocB,判定DocA和DocB的相似度。(各计算simhash之后,使用海明距离)
- 数据聚类问题:给定一批文档DocA,DocB,DocC,DocD,及变异后的DocA,DocB,DocC,DocD,找到各自变异前的文本,判定其中两两合并相似TopN=1。
- 计算公式:如上,略。
- 对每个单词生成一个hashCode
- 注意已经被Google申请了专利.