Token(词元)
全文搜索引擎会用某种算法对要建索引的文档进行分析,从文档中提取出若干Tokenizer(分词器)
Tokenizer(分词器)
Token Filter(词元处理器)
这些Token会被进一步处理,比如转成小写等,这些处理算法被称为TokenFilter(词元处理器)
Term(词)
Character Filter(字符过滤器)
文本被Tokenizer处理前可能要做一些预处理,比如去掉里面的HTML标记,这些处理的算法被称为Character Filter(字符过滤器)
Analyzer(分析器)
这整个的分析算法被称为Analyzer(分析器)
Analyzer(分析器)由Tokenizer(分词器)和Filter(过滤器)组成。
