elasticsearch - 一些概念 - 《PHP杂项》

Token（词元）

全文搜索引擎会用某种算法对要建索引的文档进行分析，从文档中提取出若干Tokenizer（分词器）

这些算法叫做Tokenizer（分词器）

这些Token会被进一步处理，比如转成小写等，这些处理算法被称为TokenFilter（词元处理器）

被处理后的结果被称为Term（词）

文本被Tokenizer处理前可能要做一些预处理，比如去掉里面的HTML标记，这些处理的算法被称为Character Filter（字符过滤器）

这整个的分析算法被称为Analyzer（分析器）
Analyzer（分析器）由Tokenizer（分词器）和Filter（过滤器）组成。