Minhash Token Filter(Minhash过滤器)

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-minhash-tokenfilter.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028836

贡献者 : 李亚运ApacheCNApache中文网

简述

min_hash 过滤器将token流中每个token一一哈希,并将生成的哈希值分成buckets,以保持每bucket最低值的散列值。 然后将这些哈希值作为token(词元)返回。

参数

设置 描述
hash_count 散列token流的散列数。 默认为1
bucket_count 将minhash分成的bucket数。 默认为512
hash_set_size 每bucket要保留的最小数量。 默认为1
with_rotation 是否将空bucket中的第一个非空bucket的值填充到其循环右边。 仅当hash_set_size等于1时才生效。 如果bucket_count大于1,则默认为true ,否则为false