- 相关性
- 搜索的相关性算分,描述了一个文档和查询语句匹配的程度。es会对每个匹配查询条件的结果进行算分_score
- 打分的本质是排序,需要把最符合用户需求的文档排在前面。es5之前,默认的相关性算分采用TF-IDF,现在采用BM25
- 词频 TF(Term Frequency):检索词在一片文档中出现的频率,即检索词出现的次数除以文档的总字数
- 度量一条查询和结果文档相关性的简单方法:简单将搜索中每一个term的TF进行相加
- stop word:停用词,对相关性算分无贡献的词,例如 ‘的’
- 逆文档频率 IDF
- DF:检索词在所有文档中出现的频率
- IDF:简单说=log(全部文档数/检索词出现过的文档总数)
- TF-IDF本质上就是将TF求和变成加权求和
- TF(区块链)IDF(区块链)+TF(的)IDF(的)+TF(应用)*IDF(应用)
BM25
和经典的TF-IDF相比,当TF无限增加时,BM25算分会趋于一个数值