Keyword Repeat Token Filter(Keyword Repeat 词元过滤器)

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-keyword-repeat-tokenfilter.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028797

贡献者 : fuckerApacheCNApache中文网

keyword_repeat 词元过滤器将每个传入两次的词元发送一次作为关键字,一次作为非关键字,以允许将术语的未设置版本与该术语的主题版本并排编入索引。

鉴于此过滤器的性质,未被后续监听器转换的每个词元将被索引两次。 因此,考虑添加 unique过滤器,only_on_same_position 设置为 true 可以丢弃不必要的重复项。

示例如下:

  1. index :
  2. analysis :
  3. analyzer :
  4. myAnalyzer :
  5. type : custom
  6. tokenizer : standard
  7. filter : [lowercase, keyword_repeat, porter_stem, unique_stem]
  8. unique_stem:
  9. type: unique
  10. only_on_same_position : true