1.DSL查询文档

1.DSL查询文档

1.1.DSL查询分类

  - **查询所有：查询出所有数据，一般测试用。例如：match_all**
  - **全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如： **
     - **match_query**
     - **multi_match_query**
  - **精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如： **
     - **ids**
     - **range**
     - **term**
  - **地理（geo）查询：根据经纬度查询。例如： **
     - **geo_distance**
     - **geo_bounding_box**
  - **复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如： **
     - **bool**
     - **function_score**

1.2.全文检索查询

1.2.1.使用场景
全文检索查询的基本流程如下：

     - **对用户搜索的内容做分词，得到词条**
     - **根据词条去倒排索引库中匹配，得到文档id**
     - **根据文档id找到文档，返回给用户**

比较常用的场景包括：

     - **商城的输入框搜索**
     - **百度输入框搜索**

1.2.2.基本语法
常见的全文检索查询包括：

     - **match查询：单字段查询**
     - **multi_match查询：多字段查询，任意一个字段符合条件就算符合查询条件**

1.2.3.总结
match和multi_match的区别是什么？

     - **match：根据一个字段查询**
     - **multi_match：根据多个字段查询，参与查询字段越多，查询性能越差**

1.3.精准查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有：

  - **term：根据词条精确值查询**
  - **range：根据值的范围查询**

1.3.1.总结
精确查询常见的有哪些？

  - **term查询：根据词条精确匹配，一般搜索keyword类型、数值类型、布尔类型、日期类型字段**
  - **range查询：根据数值范围查询，可以是数值、日期的范围**

1.4.地理坐标查询

所谓的地理坐标查询，其实就是根据经纬度查询，官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
常见的使用场景包括：

     - **携程：搜索我附近的酒店**
     - **滴滴：搜索我附近的出租车**
     - **微信：搜索我附近的人**

1.5.复合查询

复合（compound）查询：复合查询可以将其它简单查询组合起来，实现更复杂的搜索逻辑。常见的有两种：

  - **fuction score：算分函数查询，可以控制文档相关性算分，控制文档排名**
  - **bool query：布尔查询，利用逻辑关系组合多个其它的查询，实现复杂搜索**

语法说明

function score 查询中包含四部分内容：

  - **原始查询条件：query部分，基于这个条件搜索文档，并且基于BM25算法给文档打分，原始算分（query score)**
  - **过滤条件：filter部分，符合该条件的文档才会重新算分**
  - **算分函数：符合filter条件的文档要根据这个函数做运算，得到的函数算分（function score），有四种函数 **
     - **weight：函数结果是常量**
     - **field_value_factor：以文档中的某个字段值作为函数结果**
     - **random_score：以随机数作为函数结果**
     - **script_score：自定义算分函数算法**
  - **运算模式：算分函数的结果、原始查询的相关性算分，两者之间的运算方式，包括： **
     - **multiply：相乘**
     - **replace：用function score替换query score**
     - **其它，例如：sum、avg、max、min**

function score的运行流程如下：

  - **1）根据原始条件查询搜索文档，并且计算相关性算分，称为原始算分（query score）**
  - **2）根据过滤条件，过滤文档**
  - **3）符合过滤条件的文档，基于算分函数运算，得到函数算分（function score）**
  - **4）将原始算分（query score）和函数算分（function score）基于运算模式做运算，得到最终结果，作为相关性算分。**

因此，其中的关键点是：

  - **过滤条件：决定哪些文档的算分被修改**
  - **算分函数：决定函数算分的算法**
  - **运算模式：决定最终算分结果**

分页查询的常见实现方案以及优缺点：

  - **from + size： **
     - **优点：支持随机翻页**
     - **缺点：深度分页问题，默认查询上限（from + size）是10000**
     - **场景：百度、京东、谷歌、淘宝这样的随机翻页搜索**
  - **after search： **
     - **优点：没有查询上限（单次查询的size不超过10000）**
     - **缺点：只能向后逐页查询，不支持随机翻页**
     - **场景：没有随机翻页需求的搜索，例如手机向下滚动翻页**
  - **scroll： **
     - **优点：没有查询上限（单次查询的size不超过10000）**
     - **缺点：会有额外内存消耗，并且搜索结果是非实时的**
     - **场景：海量数据的获取和迁移。从ES7.1开始不推荐，建议用 after search方案。**

微服务知识点

搜索引擎ElasticSearch02