1.原理

底层基于Lucene,面向文档的,并且是使用json作为文档的序列化格式的。

2.安装

这里采用docker安装的方式

  1. 搜索elasticSearch镜像

    1. docker search elasticSearch
  2. 下载安装镜像

    1. docker pull elasticsearch
  3. 启动

因为这个启动要占2G的内存,而我的 服务器没有2g内存,所以设置 -e ES_JAVA_OPTS=”-Xms256m -Xmx256m”

  1. docker run -e ES_JAVA_OPTS="-Xms256m -Xmx256m" -d -p 9200:9200 -p 9300:9300 --name ES01 6f8bf0ce76ea
  1. 验证

在浏览器直接输入服务器IP地址:9200
image.png

3.相关概念

全文检索ElasticSearch - 图2

4.快速入门

官方中文文档:https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html

4.1增(插入数据 )

  • 每个员工索引一个文档,文档包含该员工的所有信息。
  • 每个文档都将是 employee 类型
  • 该类型位于 索引 megacorp 内。
  • 该索引保存在我们的 Elasticsearch 集群中。

以下插入了三个员工

  1. PUT /megacorp/employee/1
  2. {
  3. "first_name" : "John",
  4. "last_name" : "Smith",
  5. "age" : 25,
  6. "about" : "I love to go rock climbing",
  7. "interests": [ "sports", "music" ]
  8. }
  9. PUT /megacorp/employee/2
  10. {
  11. "first_name" : "Jane",
  12. "last_name" : "Smith",
  13. "age" : 32,
  14. "about" : "I like to collect rock albums",
  15. "interests": [ "music" ]
  16. }
  17. PUT /megacorp/employee/3
  18. {
  19. "first_name" : "Douglas",
  20. "last_name" : "Fir",
  21. "age" : 35,
  22. "about": "I like to build cabinets",
  23. "interests": [ "forestry" ]
  24. }

4.2删

DELETE 命令来删除文档

4.3改

如果想更新已存在的文档,只需再次 PUT

4.4查

4.4.1查某个id的详情

  1. GET /megacorp/employee/1

返回结果包含了文档的一些元数据,以及 _source 属性,内容是 John Smith 雇员的原始 JSON 文档。
image.png

4.4.2查所有的

  1. GET /megacorp/employee/_search

4.4.3条件查询

搜索姓氏为 Smith 的雇员

  1. 查询字符串的方式

    1. GET /megacorp/employee/_search?q=last_name:Smith
  2. 查询表达式的方式

    1. GET /megacorp/employee/_search
    2. {
    3. "query" : {
    4. "match" : {
    5. "last_name" : "Smith"
    6. }
    7. }
    8. }

    image.png

    4.5检查是否存在

    使用 HEAD 指令来检查文档是否存在
    image.png

    4.6复杂查询

    同样搜索姓氏为 Smith 的员工,但这次我们只需要年龄大于 30 的。查询需要稍作调整,使用过滤器 filter ,它支持高效地执行一个结构化查询。

    1. GET /megacorp/employee/_search
    2. {
    3. "query" : {
    4. "bool": {
    5. "must": {
    6. "match" : {
    7. "last_name" : "smith"
    8. }
    9. },
    10. "filter": {
    11. "range" : {
    12. "age" : { "gt" : 30 }
    13. }
    14. }
    15. }
    16. }
    17. }

    4.7全文检索

    搜索下所有喜欢攀岩(rock climbing)的员工:

    1. GET /megacorp/employee/_search
    2. {
    3. "query" : {
    4. "match" : {
    5. "about" : "rock climbing"
    6. }
    7. }
    8. }

    结果如下:

    1. "hits": {
    2. "total": 2,
    3. "max_score": 0.53484553,
    4. "hits": [
    5. {
    6. "_index": "megacorp",
    7. "_type": "employee",
    8. "_id": "1",
    9. "_score": 0.53484553,
    10. "_source": {
    11. "first_name": "John",
    12. "last_name": "Smith",
    13. "age": 25,
    14. "about": "I love to go rock climbing",
    15. "interests": [
    16. "sports",
    17. "music"
    18. ]
    19. }
    20. },
    21. {
    22. "_index": "megacorp",
    23. "_type": "employee",
    24. "_id": "2",
    25. "_score": 0.26742277,
    26. "_source": {
    27. "first_name": "Jane",
    28. "last_name": "Smith",
    29. "age": 32,
    30. "about": "I like to collect rock albums",
    31. "interests": [
    32. "music"
    33. ]
    34. }
    35. }
    36. ]
    37. }

    备注:_score就是相关性得分
    Elasticsearch 默认按照相关性得分排序,即每个文档跟查询的匹配程度。第一个最高得分的结果很明显:John Smith 的 about 属性清楚地写着 “rock climbing” 。
    但为什么 Jane Smith 也作为结果返回了呢?原因是她的 about 属性里提到了 “rock” 。因为只有 “rock” 而没有 “climbing” ,所以她的相关性得分低于 John 的。

    4.8短语搜索

    找出一个属性中的独立单词是没有问题的,但有时候想要精确匹配一系列单词或者短语 。 比如, 我们想执行这样一个查询,仅匹配同时包含 “rock” “climbing” ,并且 二者以短语 “rock climbing” 的形式紧挨着的雇员记录。
    为此对 match 查询稍作调整,使用一个叫做 match_phrase 的查询:

    1. GET /megacorp/employee/_search
    2. {
    3. "query" : {
    4. "match_phrase" : {
    5. "about" : "rock climbing"
    6. }
    7. }
    8. }

4.9高亮搜索

许多应用都倾向于在每个搜索结果中 高亮 部分文本片段,以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。
再次执行前面的查询,并增加一个新的 highlight 参数:

  1. GET /megacorp/employee/_search
  2. {
  3. "query" : {
  4. "match_phrase" : {
  5. "about" : "rock climbing"
  6. }
  7. },
  8. "highlight": {
  9. "fields" : {
  10. "about" : {}
  11. }
  12. }
  13. }

当执行该查询时,返回结果与之前一样,与此同时结果中还多了一个叫做 highlight 的部分。这个部分包含了 about 属性匹配的文本片段,并以 HTML 标签 封装:

  1. "hits": {
  2. "total": 1,
  3. "max_score": 0.53484553,
  4. "hits": [
  5. {
  6. "_index": "megacorp",
  7. "_type": "employee",
  8. "_id": "1",
  9. "_score": 0.53484553,
  10. "_source": {
  11. "first_name": "John",
  12. "last_name": "Smith",
  13. "age": 25,
  14. "about": "I love to go rock climbing",
  15. "interests": [
  16. "sports",
  17. "music"
  18. ]
  19. },
  20. "highlight": {
  21. "about": [
  22. "I love to go <em>rock</em> <em>climbing</em>"
  23. ]
  24. }
  25. }
  26. ]
  27. }