CJK Bigram Token Filter(CJK Bigram词元过滤器)
原文链接 :https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html
译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028059
简述
cjk_bigram
过滤器形成了由standard
tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer
(见analysis-icu
插件 )。
默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将output_unigrams
标志设置为true
。 这可以用于组合的unigram +二进制格式。
在han
, hiragana
, katakana
和hangul
中为字符生成Bigram,但对于具有ignored_scripts
参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。
示例
{
"index" : {
"analysis" : {
"analyzer" : {
"han_bigrams" : {
"tokenizer" : "standard",
"filter" : ["han_bigrams_filter"]
}
},
"filter" : {
"han_bigrams_filter" : {
"type" : "cjk_bigram",
"ignored_scripts": [
"hiragana",
"katakana",
"hangul"
],
"output_unigrams" : true
}
}
}
}
}