• 相关性
      • 搜索的相关性算分,描述了一个文档和查询语句匹配的程度。es会对每个匹配查询条件的结果进行算分_score
      • 打分的本质是排序,需要把最符合用户需求的文档排在前面。es5之前,默认的相关性算分采用TF-IDF,现在采用BM25
    • 词频 TF(Term Frequency):检索词在一片文档中出现的频率,即检索词出现的次数除以文档的总字数
      • 度量一条查询和结果文档相关性的简单方法:简单将搜索中每一个term的TF进行相加
      • stop word:停用词,对相关性算分无贡献的词,例如 ‘的’
    • 逆文档频率 IDF
      • DF:检索词在所有文档中出现的频率
      • IDF:简单说=log(全部文档数/检索词出现过的文档总数)
      • TF-IDF本质上就是将TF求和变成加权求和
        • TF(区块链)IDF(区块链)+TF(的)IDF(的)+TF(应用)*IDF(应用)image.png
    • BM25

      • 和经典的TF-IDF相比,当TF无限增加时,BM25算分会趋于一个数值

        TF-IDF&BM25.png