CJK Bigram Token Filter(CJK Bigram词元过滤器)

原文链接 :https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028059

贡献者 : 李亚运ApacheCNApache中文网

简述

cjk_bigram过滤器形成了由standard tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer(见analysis-icu插件 )。

默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将output_unigrams标志设置为true 。 这可以用于组合的unigram +二进制格式。

hanhiraganakatakanahangul中为字符生成Bigram,但对于具有ignored_scripts参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。

示例

  1. {
  2. "index" : {
  3. "analysis" : {
  4. "analyzer" : {
  5. "han_bigrams" : {
  6. "tokenizer" : "standard",
  7. "filter" : ["han_bigrams_filter"]
  8. }
  9. },
  10. "filter" : {
  11. "han_bigrams_filter" : {
  12. "type" : "cjk_bigram",
  13. "ignored_scripts": [
  14. "hiragana",
  15. "katakana",
  16. "hangul"
  17. ],
  18. "output_unigrams" : true
  19. }
  20. }
  21. }
  22. }
  23. }