语言分析器

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.3/getting-started.html(修改该链接为官网对应的链接)

译文链接 : http://www.apache.wiki/display/Elasticsearch(修改该链接为 ApacheCN 对应的译文链接)

贡献者 : ╮欠n1的太多ApacheCNApache中文网

一组用于分析特定语言文本的分析器。 支持以下类型:arabic, armenian, basque, brazilian, bulgarian, catalan, cjk,czech, danish, dutch, english, finnish, french, galician, german, greek, hindi,hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, persian,portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai.

配置语言分析仪

Stopwords(停止词)

所有分析仪都支持在配置内部设置自定义停用词,也可以通过设置stopwords_path来使用外部的停用词。 检查Stop Analyzer了解更多详细信息。

Excluding words from stemming(排除词干)

stem_exclusion参数允许您指定不应该被阻止的小写字母数组。 在内部,通过将关键字设置为该值的keyword_marker token filter 来实现此功能

Reimplementing language analyzers(重新实现语言分析器)

内置语言分析器可以作为custom analyzers(如下所述)重新实现,以便自定义其行为。

  1. ** 笔记:**如果您不打算排除单词被干扰(相当于上面的stem_exclusion参数),那么您应该从custom analyzer配置中删除keyword_marker token filter

**arabic 分析器**

arabic 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "arabic_stop": {
  6. "type": "stop",
  7. "stopwords": "_arabic_"
  8. },
  9. "arabic_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "arabic_stemmer": {
  14. "type": "stemmer",
  15. "language": "arabic"
  16. }
  17. },
  18. "analyzer": {
  19. "arabic": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "arabic_stop",
  24. "arabic_normalization",
  25. "arabic_keywords",
  26. "arabic_stemmer"
  27. ]
  28. }
  29. }
  30. }
  31. }
  32. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

armenian 分析器

分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "armenian_stop": {
  6. "type": "stop",
  7. "stopwords": "_armenian_"
  8. },
  9. "armenian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "armenian_stemmer": {
  14. "type": "stemmer",
  15. "language": "armenian"
  16. }
  17. },
  18. "analyzer": {
  19. "armenian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "armenian_stop",
  24. "armenian_keywords",
  25. "armenian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

basque分析器

basque 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "basque_stop": {
  6. "type": "stop",
  7. "stopwords": "_basque_"
  8. },
  9. "basque_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "basque_stemmer": {
  14. "type": "stemmer",
  15. "language": "basque"
  16. }
  17. },
  18. "analyzer": {
  19. "basque": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "basque_stop",
  24. "basque_keywords",
  25. "basque_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

brazilian分析器

brazilian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "brazilian_stop": {
  6. "type": "stop",
  7. "stopwords": "_brazilian_"
  8. },
  9. "brazilian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "brazilian_stemmer": {
  14. "type": "stemmer",
  15. "language": "brazilian"
  16. }
  17. },
  18. "analyzer": {
  19. "brazilian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "brazilian_stop",
  24. "brazilian_keywords",
  25. "brazilian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

bulgarian分析器

bulgarian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "bulgarian_stop": {
  6. "type": "stop",
  7. "stopwords": "_bulgarian_"
  8. },
  9. "bulgarian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "bulgarian_stemmer": {
  14. "type": "stemmer",
  15. "language": "bulgarian"
  16. }
  17. },
  18. "analyzer": {
  19. "bulgarian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "bulgarian_stop",
  24. "bulgarian_keywords",
  25. "bulgarian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

catalan 分析器

catalan 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "catalan_elision": {
  6. "type": "elision",
  7. "articles": [ "d", "l", "m", "n", "s", "t"]
  8. },
  9. "catalan_stop": {
  10. "type": "stop",
  11. "stopwords": "_catalan_"
  12. },
  13. "catalan_keywords": {
  14. "type": "keyword_marker",
  15. "keywords": []
  16. },
  17. "catalan_stemmer": {
  18. "type": "stemmer",
  19. "language": "catalan"
  20. }
  21. },
  22. "analyzer": {
  23. "catalan": {
  24. "tokenizer": "standard",
  25. "filter": [
  26. "catalan_elision",
  27. "lowercase",
  28. "catalan_stop",
  29. "catalan_keywords",
  30. "catalan_stemmer"
  31. ]
  32. }
  33. }
  34. }
  35. }
  36. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

cjk 分析器

cjk 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "english_stop": {
  6. "type": "stop",
  7. "stopwords": "_english_"
  8. }
  9. },
  10. "analyzer": {
  11. "cjk": {
  12. "tokenizer": "standard",
  13. "filter": [
  14. "cjk_width",
  15. "lowercase",
  16. "cjk_bigram",
  17. "english_stop"
  18. ]
  19. }
  20. }
  21. }
  22. }
  23. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

czech 分析器

czech 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "czech_stop": {
  6. "type": "stop",
  7. "stopwords": "_czech_"
  8. },
  9. "czech_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "czech_stemmer": {
  14. "type": "stemmer",
  15. "language": "czech"
  16. }
  17. },
  18. "analyzer": {
  19. "czech": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "czech_stop",
  24. "czech_keywords",
  25. "czech_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

danish 分析器

danish 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "danish_stop": {
  6. "type": "stop",
  7. "stopwords": "_danish_"
  8. },
  9. "danish_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "danish_stemmer": {
  14. "type": "stemmer",
  15. "language": "danish"
  16. }
  17. },
  18. "analyzer": {
  19. "danish": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "danish_stop",
  24. "danish_keywords",
  25. "danish_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

dutch分析器

dutch 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "dutch_stop": {
  6. "type": "stop",
  7. "stopwords": "_dutch_"
  8. },
  9. "dutch_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "dutch_stemmer": {
  14. "type": "stemmer",
  15. "language": "dutch"
  16. },
  17. "dutch_override": {
  18. "type": "stemmer_override",
  19. "rules": [
  20. "fiets=>fiets",
  21. "bromfiets=>bromfiets",
  22. "ei=>eier",
  23. "kind=>kinder"
  24. ]
  25. }
  26. },
  27. "analyzer": {
  28. "dutch": {
  29. "tokenizer": "standard",
  30. "filter": [
  31. "lowercase",
  32. "dutch_stop",
  33. "dutch_keywords",
  34. "dutch_override",
  35. "dutch_stemmer"
  36. ]
  37. }
  38. }
  39. }
  40. }
  41. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

english分析器

english 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "english_stop": {
  6. "type": "stop",
  7. "stopwords": "_english_"
  8. },
  9. "english_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "english_stemmer": {
  14. "type": "stemmer",
  15. "language": "english"
  16. },
  17. "english_possessive_stemmer": {
  18. "type": "stemmer",
  19. "language": "possessive_english"
  20. }
  21. },
  22. "analyzer": {
  23. "english": {
  24. "tokenizer": "standard",
  25. "filter": [
  26. "english_possessive_stemmer",
  27. "lowercase",
  28. "english_stop",
  29. "english_keywords",
  30. "english_stemmer"
  31. ]
  32. }
  33. }
  34. }
  35. }
  36. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

finnish 分析器

finnish 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "finnish_stop": {
  6. "type": "stop",
  7. "stopwords": "_finnish_"
  8. },
  9. "finnish_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "finnish_stemmer": {
  14. "type": "stemmer",
  15. "language": "finnish"
  16. }
  17. },
  18. "analyzer": {
  19. "finnish": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "finnish_stop",
  24. "finnish_keywords",
  25. "finnish_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

french 分析器

french 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "french_elision": {
  6. "type": "elision",
  7. "articles_case": true,
  8. "articles": [
  9. "l", "m", "t", "qu", "n", "s",
  10. "j", "d", "c", "jusqu", "quoiqu",
  11. "lorsqu", "puisqu"
  12. ]
  13. },
  14. "french_stop": {
  15. "type": "stop",
  16. "stopwords": "_french_"
  17. },
  18. "french_keywords": {
  19. "type": "keyword_marker",
  20. "keywords": []
  21. },
  22. "french_stemmer": {
  23. "type": "stemmer",
  24. "language": "light_french"
  25. }
  26. },
  27. "analyzer": {
  28. "french": {
  29. "tokenizer": "standard",
  30. "filter": [
  31. "french_elision",
  32. "lowercase",
  33. "french_stop",
  34. "french_keywords",
  35. "french_stemmer"
  36. ]
  37. }
  38. }
  39. }
  40. }
  41. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

galician 分析器

galician 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "galician_stop": {
  6. "type": "stop",
  7. "stopwords": "_galician_"
  8. },
  9. "galician_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "galician_stemmer": {
  14. "type": "stemmer",
  15. "language": "galician"
  16. }
  17. },
  18. "analyzer": {
  19. "galician": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "galician_stop",
  24. "galician_keywords",
  25. "galician_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

german 分析器

german 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "german_stop": {
  6. "type": "stop",
  7. "stopwords": "_german_"
  8. },
  9. "german_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "german_stemmer": {
  14. "type": "stemmer",
  15. "language": "light_german"
  16. }
  17. },
  18. "analyzer": {
  19. "german": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "german_stop",
  24. "german_keywords",
  25. "german_normalization",
  26. "german_stemmer"
  27. ]
  28. }
  29. }
  30. }
  31. }
  32. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

greek 分析器

greek 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "greek_stop": {
  6. "type": "stop",
  7. "stopwords": "_greek_"
  8. },
  9. "greek_lowercase": {
  10. "type": "lowercase",
  11. "language": "greek"
  12. },
  13. "greek_keywords": {
  14. "type": "keyword_marker",
  15. "keywords": []
  16. },
  17. "greek_stemmer": {
  18. "type": "stemmer",
  19. "language": "greek"
  20. }
  21. },
  22. "analyzer": {
  23. "greek": {
  24. "tokenizer": "standard",
  25. "filter": [
  26. "greek_lowercase",
  27. "greek_stop",
  28. "greek_keywords",
  29. "greek_stemmer"
  30. ]
  31. }
  32. }
  33. }
  34. }
  35. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

hindi 分析器

hindi 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "hindi_stop": {
  6. "type": "stop",
  7. "stopwords": "_hindi_"
  8. },
  9. "hindi_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "hindi_stemmer": {
  14. "type": "stemmer",
  15. "language": "hindi"
  16. }
  17. },
  18. "analyzer": {
  19. "hindi": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "indic_normalization",
  24. "hindi_normalization",
  25. "hindi_stop",
  26. "hindi_keywords",
  27. "hindi_stemmer"
  28. ]
  29. }
  30. }
  31. }
  32. }
  33. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

hungarian 分析器

hungarian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "hungarian_stop": {
  6. "type": "stop",
  7. "stopwords": "_hungarian_"
  8. },
  9. "hungarian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "hungarian_stemmer": {
  14. "type": "stemmer",
  15. "language": "hungarian"
  16. }
  17. },
  18. "analyzer": {
  19. "hungarian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "hungarian_stop",
  24. "hungarian_keywords",
  25. "hungarian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

indonesian分析器

indonesian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "indonesian_stop": {
  6. "type": "stop",
  7. "stopwords": "_indonesian_"
  8. },
  9. "indonesian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "indonesian_stemmer": {
  14. "type": "stemmer",
  15. "language": "indonesian"
  16. }
  17. },
  18. "analyzer": {
  19. "indonesian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "indonesian_stop",
  24. "indonesian_keywords",
  25. "indonesian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

irish 分析器

irish 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "irish_elision": {
  6. "type": "elision",
  7. "articles": [ "h", "n", "t" ]
  8. },
  9. "irish_stop": {
  10. "type": "stop",
  11. "stopwords": "_irish_"
  12. },
  13. "irish_lowercase": {
  14. "type": "lowercase",
  15. "language": "irish"
  16. },
  17. "irish_keywords": {
  18. "type": "keyword_marker",
  19. "keywords": []
  20. },
  21. "irish_stemmer": {
  22. "type": "stemmer",
  23. "language": "irish"
  24. }
  25. },
  26. "analyzer": {
  27. "irish": {
  28. "tokenizer": "standard",
  29. "filter": [
  30. "irish_stop",
  31. "irish_elision",
  32. "irish_lowercase",
  33. "irish_keywords",
  34. "irish_stemmer"
  35. ]
  36. }
  37. }
  38. }
  39. }
  40. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

italian 分析器

italian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "italian_elision": {
  6. "type": "elision",
  7. "articles": [
  8. "c", "l", "all", "dall", "dell",
  9. "nell", "sull", "coll", "pell",
  10. "gl", "agl", "dagl", "degl", "negl",
  11. "sugl", "un", "m", "t", "s", "v", "d"
  12. ]
  13. },
  14. "italian_stop": {
  15. "type": "stop",
  16. "stopwords": "_italian_"
  17. },
  18. "italian_keywords": {
  19. "type": "keyword_marker",
  20. "keywords": []
  21. },
  22. "italian_stemmer": {
  23. "type": "stemmer",
  24. "language": "light_italian"
  25. }
  26. },
  27. "analyzer": {
  28. "italian": {
  29. "tokenizer": "standard",
  30. "filter": [
  31. "italian_elision",
  32. "lowercase",
  33. "italian_stop",
  34. "italian_keywords",
  35. "italian_stemmer"
  36. ]
  37. }
  38. }
  39. }
  40. }
  41. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

latvian 分析器

latvian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "latvian_stop": {
  6. "type": "stop",
  7. "stopwords": "_latvian_"
  8. },
  9. "latvian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "latvian_stemmer": {
  14. "type": "stemmer",
  15. "language": "latvian"
  16. }
  17. },
  18. "analyzer": {
  19. "latvian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "latvian_stop",
  24. "latvian_keywords",
  25. "latvian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

lithuanian 分析器

lithuanian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "lithuanian_stop": {
  6. "type": "stop",
  7. "stopwords": "_lithuanian_"
  8. },
  9. "lithuanian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "lithuanian_stemmer": {
  14. "type": "stemmer",
  15. "language": "lithuanian"
  16. }
  17. },
  18. "analyzer": {
  19. "lithuanian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "lithuanian_stop",
  24. "lithuanian_keywords",
  25. "lithuanian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

norwegian 分析器

norwegian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "norwegian_stop": {
  6. "type": "stop",
  7. "stopwords": "_norwegian_"
  8. },
  9. "norwegian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "norwegian_stemmer": {
  14. "type": "stemmer",
  15. "language": "norwegian"
  16. }
  17. },
  18. "analyzer": {
  19. "norwegian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "norwegian_stop",
  24. "norwegian_keywords",
  25. "norwegian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

persian 分析器

persian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "char_filter": {
  5. "zero_width_spaces": {
  6. "type": "mapping",
  7. "mappings": [ "\\u200C=> "]
  8. }
  9. },
  10. "filter": {
  11. "persian_stop": {
  12. "type": "stop",
  13. "stopwords": "_persian_"
  14. }
  15. },
  16. "analyzer": {
  17. "persian": {
  18. "tokenizer": "standard",
  19. "char_filter": [ "zero_width_spaces" ],
  20. "filter": [
  21. "lowercase",
  22. "arabic_normalization",
  23. "persian_normalization",
  24. "persian_stop"
  25. ]
  26. }
  27. }
  28. }
  29. }
  30. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

portuguese 分析器

portuguese 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "portuguese_stop": {
  6. "type": "stop",
  7. "stopwords": "_portuguese_"
  8. },
  9. "portuguese_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "portuguese_stemmer": {
  14. "type": "stemmer",
  15. "language": "light_portuguese"
  16. }
  17. },
  18. "analyzer": {
  19. "portuguese": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "portuguese_stop",
  24. "portuguese_keywords",
  25. "portuguese_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

romanian 分析器

romanian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "romanian_stop": {
  6. "type": "stop",
  7. "stopwords": "_romanian_"
  8. },
  9. "romanian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "romanian_stemmer": {
  14. "type": "stemmer",
  15. "language": "romanian"
  16. }
  17. },
  18. "analyzer": {
  19. "romanian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "romanian_stop",
  24. "romanian_keywords",
  25. "romanian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

russian 分析器

russian 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "russian_stop": {
  6. "type": "stop",
  7. "stopwords": "_russian_"
  8. },
  9. "russian_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "russian_stemmer": {
  14. "type": "stemmer",
  15. "language": "russian"
  16. }
  17. },
  18. "analyzer": {
  19. "russian": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "russian_stop",
  24. "russian_keywords",
  25. "russian_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

sorani 分析器

sorani 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "sorani_stop": {
  6. "type": "stop",
  7. "stopwords": "_sorani_"
  8. },
  9. "sorani_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "sorani_stemmer": {
  14. "type": "stemmer",
  15. "language": "sorani"
  16. }
  17. },
  18. "analyzer": {
  19. "sorani": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "sorani_normalization",
  23. "lowercase",
  24. "sorani_stop",
  25. "sorani_keywords",
  26. "sorani_stemmer"
  27. ]
  28. }
  29. }
  30. }
  31. }
  32. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

spanish 分析器

spanish 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "spanish_stop": {
  6. "type": "stop",
  7. "stopwords": "_spanish_"
  8. },
  9. "spanish_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "spanish_stemmer": {
  14. "type": "stemmer",
  15. "language": "light_spanish"
  16. }
  17. },
  18. "analyzer": {
  19. "spanish": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "spanish_stop",
  24. "spanish_keywords",
  25. "spanish_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

swedish 分析器

swedish 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "swedish_stop": {
  6. "type": "stop",
  7. "stopwords": "_swedish_"
  8. },
  9. "swedish_keywords": {
  10. "type": "keyword_marker",
  11. "keywords": []
  12. },
  13. "swedish_stemmer": {
  14. "type": "stemmer",
  15. "language": "swedish"
  16. }
  17. },
  18. "analyzer": {
  19. "swedish": {
  20. "tokenizer": "standard",
  21. "filter": [
  22. "lowercase",
  23. "swedish_stop",
  24. "swedish_keywords",
  25. "swedish_stemmer"
  26. ]
  27. }
  28. }
  29. }
  30. }
  31. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

turkish 分析器

turkish 分析器可以如以下定制分析仪重新实现:

{ “settings”: { “analysis”: { “filter”: { “turkishstop”: { “type”: “stop”, “stopwords”: “_turkish“ }, “turkish_lowercase”: { “type”: “lowercase”, “language”: “turkish” }, “turkish_keywords”: { “type”: “keyword_marker”, “keywords”: [] }, “turkish_stemmer”: { “type”: “stemmer”, “language”: “turkish” } }, “analyzer”: { “turkish”: { “tokenizer”: “standard”, “filter”: [ “apostrophe”, “turkish_lowercase”, “turkish_stop”, “turkish_keywords”, “turkish_stemmer” ] } } } } }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。

2>应该删除此过滤器,除非有字词应该排除在干扰之外。

thai 分析器

thai 分析器可以如以下定制分析仪重新实现:

  1. {
  2. "settings": {
  3. "analysis": {
  4. "filter": {
  5. "thai_stop": {
  6. "type": "stop",
  7. "stopwords": "_thai_"
  8. }
  9. },
  10. "analyzer": {
  11. "thai": {
  12. "tokenizer": "thai",
  13. "filter": [
  14. "lowercase",
  15. "thai_stop"
  16. ]
  17. }
  18. }
  19. }
  20. }
  21. }

1>可以使用无效词或stopwords_path参数覆盖默认的停用词。