CJK Bigram Token Filter（CJK Bigram词元过滤器）
- 简述
- 示例

CJK Bigram Token Filter（CJK Bigram词元过滤器）

原文链接 :https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028059

贡献者 : 李亚运，ApacheCN，Apache中文网

简述

cjk_bigram过滤器形成了由standard tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer（见analysis-icu插件）。

默认情况下，当一个CJK字符没有相邻字符形成一个二进制格式时，它以单格形式输出。如果您总是输出unigrams和bigrams，请将output_unigrams标志设置为true 。这可以用于组合的unigram +二进制格式。

在han ， hiragana ， katakana和hangul中为字符生成Bigram，但对于具有ignored_scripts参数的特定脚本，可以禁用bigrams。所有非CJK输入都通过未修改。

示例

{
    "index" : {
        "analysis" : {
            "analyzer" : {
                "han_bigrams" : {
                    "tokenizer" : "standard",
                    "filter" : ["han_bigrams_filter"]
                }
            },
            "filter" : {
                "han_bigrams_filter" : {
                    "type" : "cjk_bigram",
                    "ignored_scripts": [
                        "hiragana",
                        "katakana",
                        "hangul"
                    ],
                    "output_unigrams" : true
                }
            }
        }
    }
}