1. 分词和分词器

Analysis 分词：把全文本转换成一系列单词
Analyzer 是通过 Analyzer 来实现的
- 可使用 ElasticSearch 内置的分析器，或按需定制化分析器
除了在数据写入时转换词条，匹配 Query 语句时也需要用相同的分析器对查询语句进行分析

2. 分词器的组成

组成	功能
Character Filters	针对原始文本进行处理，比如去除 html 标记符
Tokenizer	将原始文本按照一定规则切分为单词
Token Filters	针对切分的单词进行加工，比如转为小写、删除 stopwords、增加同义词

分词器组成的调用是有顺序的：

分词器 - 图1

3. Analyze API

es 提供了一个测试分词的 api 接口，方便验证分词效果，endpoint 是 _analyze；
这个 api 具有以下特点：

可以直接指定 analyzer 进行测试；
可以直接指定索引中的字段进行测试；
可以自定义分词器进行测试；
3.1 直接指定analyzer进行测试
```
POST _analyze
{
  "analyzer": "standard",
  "text": "hello world"
}
```
analyzer 表示指定的分词器，这里使用 es 自带的分词器 standard，text 用来指定待分词的文本。

从结果中可以看到，分词器将文本分成了 hello 和 world 两个单词。

3.2 指定索引中的字段进行测试

应用场景：当创建好索引后发现某一字段的查询和预期不一样，就可以对这个字段进行分词测试。

POST text_index/_analyze
{
  "field": "username",
  "text": "hello world"
}

分词器 - 图3
当没有指定分词器的时候默认使用 standard。

3.3 自定义分词器进行测试

POST _analyze
{
  "tokenizer": "standard",
  "filter": [ "lowercase" ],
  "text": "Hello World"
}

根据分词的流程，首先通过 tokenizer 指定的分词方法 standard 进行分词，然后会经过 filter 将大写转化为小写。
分词器 - 图4

4. ES 的内置分词器

4.1 Standard Analyzer

默认分词器，具有按词切分、支持多语言、小写处理的特点。
分词器 - 图5
可以看到，standerd 将 stop word 默认关闭了，也就是这些词还是会在分词后保留。
stop word 就是例如 and、the、or 这种词，可以通过配置将它打开。其实搜索引擎应该将这些 stop word 过滤掉，这样可以减少压力的同时保证搜索的准确性。