Elasticsearch - Basic Term - 《Java》

分词器
- Analysis 和 Analyzer
中文分词器

分词器

Analysis 和 Analyzer

Analysis：文本分析是把全文本转换一系列单词(term/token)的过程，也叫分词。Analysis是通过Analyzer来实现的。当一个文档被索引时，每个Field都可能会创建一个倒排索引（Mapping可以设置不索引该Field）。
倒排索引的过程就是将文档通过Analyzer分成一个一个的Term,每一个Term都指向包含这个Term的文档集合。当查询query时，Elasticsearch会根据搜索类型决定是否对query进行analyze，然后和倒排索引中的term进行相关性查询，匹配相应的文档。

分析器（analyzer）都由三种构件块组成的：character filters(字符过滤器) ， tokenizers(分词器) ， token filters(Token过滤器)
执行顺序：Character Filters(不止一个) -> Tokenizer(恰好一个)-> Token Filters(不止一个)

内置分词器

Standard Analyzer - 默认分词器，按词切分，小写处理
Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理
Stop Analyzer - 小写处理，停用词过滤(the,a,is)
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当作输出
Patter Analyzer - 正则表达式，默认\W+(非字符分割)
Language - 提供了30多种常见语言的分词器
Customer Analyzer 自定义分词器
中文分词器
IK分词器
IK有两种颗粒度的拆分：
ik_smart: 会做最粗粒度的拆分
ik_max_word: 会将文本做最细粒度的拆分

Basic Term

分词器

Analysis 和 Analyzer

中文分词器