Token(词元)

全文搜索引擎会用某种算法对要建索引的文档进行分析,从文档中提取出若干Tokenizer(分词器)

Tokenizer(分词器)

这些算法叫做Tokenizer(分词器)

Token Filter(词元处理器)

这些Token会被进一步处理,比如转成小写等,这些处理算法被称为TokenFilter(词元处理器)

Term(词)

被处理后的结果被称为Term(词)

Character Filter(字符过滤器)

文本被Tokenizer处理前可能要做一些预处理,比如去掉里面的HTML标记,这些处理的算法被称为Character Filter(字符过滤器)

Analyzer(分析器)

这整个的分析算法被称为Analyzer(分析器)
Analyzer(分析器)由Tokenizer(分词器)和Filter(过滤器)组成。
image.png