CJK Bigram Token Filter(CJK Bigram词元过滤器)
原文链接 :https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html
译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028059
简述
cjk_bigram过滤器形成了由standard tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer(见analysis-icu插件 )。
默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将output_unigrams标志设置为true 。 这可以用于组合的unigram +二进制格式。
在han , hiragana , katakana和hangul中为字符生成Bigram,但对于具有ignored_scripts参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。
示例
{"index" : {"analysis" : {"analyzer" : {"han_bigrams" : {"tokenizer" : "standard","filter" : ["han_bigrams_filter"]}},"filter" : {"han_bigrams_filter" : {"type" : "cjk_bigram","ignored_scripts": ["hiragana","katakana","hangul"],"output_unigrams" : true}}}}}
