Lowercase Token Filter(Lowercase 词元过滤器)

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-lowercase-tokenfilter.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10027085

贡献者 : fuckerApacheCNApache中文网

lowercase 类型的词元过滤器,将词元文本规范化为小写。

Lowercase Token Filter 通过 language 参数支持 Greek (希腊语)Irish (爱尔兰语)Turkish(土耳其)小写词元过滤器。 以下是自定义分词器中的使用示例

  1. index :
  2. analysis :
  3. analyzer :
  4. myAnalyzer2 :
  5. type : custom
  6. tokenizer : myTokenizer1
  7. filter : [myTokenFilter1, myGreekLowerCaseFilter]
  8. char_filter : [my_html]
  9. tokenizer :
  10. myTokenizer1 :
  11. type : standard
  12. max_token_length : 900
  13. filter :
  14. myTokenFilter1 :
  15. type : stop
  16. stopwords : [stop1, stop2, stop3, stop4]
  17. myGreekLowerCaseFilter :
  18. type : lowercase
  19. language : greek
  20. char_filter :
  21. my_html :
  22. type : html_strip
  23. escaped_tags : [xxx, yyy]
  24. read_ahead : 1024