1 认识ElasticSearch
1.1 为什么要使用ElasticSearch
实际项目中,我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望我们的搜索解决方案要快,我们希望有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON/XML通过HTTP的索引数据,我们希望我们的搜索服务器始终可用,我们希望能够从一台开始并在需要扩容时方便地扩展到数百,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。
虽然全文搜索领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene的配置及使用非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。
1.2 ElasticSearch(简称ES)
ES即为了解决原生Lucene使用的不足,优化Lucene的调用方式,并实现了高可用的分布式集群的搜索方案,其第一个版本于2010年2月出现在GitHub上并迅速成为最受欢迎的项目之一。
首先,ES的索引库管理支持依然是基于Apache Lucene(TM)的开源搜索引擎。ES也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的 RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。Lucene直接通过java API调用,而ES把这些API调用过程进行了的封装为简单RESTful请求,让我们调用起来更加简单.
不过,ES的核心不在于Lucene,其特点更多的体现为:分布式的实时文件存储,每个字段都被索引并可被搜索,分布式的实时分析搜索引擎,可以扩展到上百台服务器,处理PB级结构化或非结构化数据,高度集成化的服务,你的应用可以通过简单的 RESTful API、各种语言的客户端甚至命令行与之交互。上手Elasticsearch非常容易。它提供了许多合理的缺省值,并对初学者隐藏了复杂的搜索引擎理论。它拥有开瓶即饮的效果(安装即可使用),只需很少的学习既可在生产环境中使用。
Lucene和ES联系,区别:项目中为啥使用ES而不用Lucene.
联系:ElasticSearch封装了Lucene,让使用变得更简单,在高可用上面做得更好。
区别:ElasticSearch除了拥有Lucene所有优点以外,还拥有自己优点.
可用性:支持集群没有单点故障
扩展性:支持集群扩展
一般lucene在中小型项目中使用(但是也能使用es),而ES在大型项目中使用.因为ES支持在集群环境使用,并且自身也支持集群.
2 ES安装及使用说明
3 Restful认识
Restful是一种面向资源的架构风格,可以简单理解为:使用URL定位资源,用HTTP动词(GET,POST,DELETE,PUT)描述操作。 url中不要出现动词。
GET查询
PUT添加
POST修改
DELE删除
用户做crud
Get http://localhost:8080/employee/1
Get http://localhost:8080/employees
put http://localhost:8080/employee
{
“name”:”zs”,
“age”:17
}
delete http://localhost:8080/employee/1
Post http://localhost:8080/employee/1
{
}
使用Restful的好处:
透明性,暴露资源存在。
充分利用 HTTP 协议本身语义。
无状态,这点非常重要。在调用一个接口(interface)(访问、操作资源)的时候,可以不用考虑上下文,不用考虑当前状态,极大的降低了复杂度。
HTTP 本身提供了丰富的内容协商手段,无论是缓存,还是资源修改的乐观并发控制,都可以以业务无关的中间件来实现。
Restful的典型特征:
① Server(controller)提供的RESTful API(requestMapping(“/deleteUserById/{id}”)中,URL中只使用名词来指定资源。
getUserById
“资源”是REST架构或者说整个网络处理的核心。比如:
GET http://api.itsource.cn/emp/323: 获取323号员工的基本资料;
@RequstMapping(“/emp/{id}”,method=Me.GET)
Public AjaxResult getUserById(@PathVavirli(“id”) Long id){
//sdfsfsd
}
Delete http://com.woniuxy.com/emp/323: 删除一个323的员工
@RequstMapping(“/emp/{id}”,method=Me.DELETE)
Public AjaxResult delete(@PathVavirli(“id”) Long id){
//sdfsfsd
}
GET http://com.woniuxy.com/emps: 获取源码时代所有员工资料列表;
② REST 是面向资源的,这个概念非常重要,而资源是通过 URI 进行暴露
URI 的设计只要负责把资源通过合理方式暴露出来就可以了。对资源的操作与它无关,所以REST 通过 URI 暴露资源时,会强调不要在 URI 中出现动词。
比如:左边是错误的设计,而右边是正确的
GET /rest/api/getDogs -> GET /rest/api/dogs 获取所有小狗狗
GET /rest/api/addDogs -> PUT/rest/api/dogs 添加一个小狗狗
POST /rest/api/editDogs/12 -> POST /rest/api/dogs/12 修改一个小狗狗
POST /rest/api/deleteDogs/12 -> DELETE /rest/api/dogs/12 删除一个小狗狗
左边的这种设计,很明显不符合REST风格,URI 只负责准确无误的暴露资源,而 getDogs/addDogs…已经包含了对资源的操作,这是不对的。相反右边却满足了,它的操作是使用标准的HTTP动词来体现。
③ 用HTTP协议里的动词来实现资源的添加,修改,删除等操作。
即通过HTTP动词来实现资源的状态扭转:
GET 用来获取资源,
POST 用来新建资源(也可以用于更新资源),
PUT 用来更新资源,
DELETE 用来删除资源。
比如:
GET http://com.woniuxy.com/emp/323
PUT http://com.woniuxy.com/emp: 添加一个员工
POST http://com.woniuxy.com/emp/232: 更新232号员工资料
DELETE http://com.woniuxy.com/emp/323: 删除323号员工
4 ES数据管理
4.1 什么是ES中的文档
ES是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储,还会索引(index,创建索引)每个文档的内容使之可以被搜索。在ES中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。
ES使用Javascript对象符号(JavaScript Object Notation),也就是JSON,作为文档序列化格式。JSON现在已经被大多语言所支持,而且已经成为NoSQL领域的标准格式。
ES存储的一个员工文档的格式示例:
{
“email”: “wb@itsource.cn”,
“name”: “文兵”,
“info”: {
“addr”: “四川省成都市”,
“age”: 30,
“interests”: [ “樱桃”, “粉嫩” ]
},
“join_date”: “2014-06-01”
}
尽管原始的 employee对象很复杂,但它的结构和对象的含义已经被完整的体现在JSON中了,在ES中将对象转化为JSON并做索引要比在表结构中做相同的事情简单的多。
一个文档不只有数据。它还包含元数据(metadata)—关于文档的信息。三个必须的元数据节点是:
| 节点 | 说明 |
|---|---|
| _index | 索引库,文档存储的地方 |
| _type | 文档类型(6.x之后版本已取消) |
| _id | 文档的唯一标识 |
_index:索引库,类似于关系型数据库里的“数据库”—它是我们存储和索引关联数据的地方。
_type:类型,类似于关系型数据库中表.在应用中,我们使用对象表示一些“事物”,例如一个用户、一篇博客、一个评论,或者一封邮件。可以是大写或小写,不能包含下划线或逗号。我们将使用 employee 做为类型名。在新版本里面已经取消了
_id: 与 _index 和 _type 组合时,就可以在ELasticsearch中唯一标识一个文档。当创建一个文档,你可以自定义 _id ,也可以让Elasticsearch帮你自动生成。
_source:文档原始数据
_all:所有字段的连接字符串
4.2 文档的增删改
我们以员工对象为例,我们首先要做的是存储员工数据,每个文档代表一个员工。在ES中存储数据的行为就叫做索引(indexing),文档归属于一种类型(type),而这些类型存在于索引(index)中,我们可以简单的对比传统数据库和ES的对应关系:
关系数据库(MYSQL) -> 数据库DB-> 表TABLE-> 行ROW-> 列Column
Elasticsearch -> 索引库Indices -> 类型Types -> 文档Documents -> 字段Fields
ES集群可以包含多个索引(indices)(数据库),每一个索引库中可以包含多个类型(types)(表),每一个类型包含多个文档(documents)(行),然后每个文档包含多个字段(Fields)(列)。
创建索引文档
使用自己的ID创建
PUT {index}/_doc/{id}{"field": "value",...}
使用内置ID创建
POST {index}/_doc { "field": "value", ... }获取指定ID的文档
GET {index}/_doc/1更新文档
PUT {index}/_doc/{id} { "field": "value", ... }跟创建语法一样,但是会改变版本号
删除文档
DELETE {index}/_doc/{id}注意:尽管文档不存在,但_version依旧增加了。这是内部记录的一部分,它确保在多节点间不同操作可以有正确的顺序
4.3 文档的简单查询(searchAPI)
GET /_search GET /woniu47/_search GET /woniu47,woniu48/_search GET /woniu*/_searchURLsearch:
通过ID获取GET /woniu47/_doc/1只返回文档内容,不要元数据:
GET /woniu47/_doc/1/_source查询字符串搜索:
返回文档的部分字段:GET /woniu47/_doc/1?_source=name,age查询年龄为25岁的学员
GET /woniu47/_search?q=age:25组合查询:
组合查询:
+表示并且,多个条件做且运算====>MUST
空格表示或,多个条件做或运算====>SHOULD
-表示非,多个条件做非运算====>MUST_NOT
+name:john +tweet:mary
+name:(mary john) +date:>2014-09-10 +(aggregations geo)
age[20 TO 30]
查询年龄在25到28 (两边都包括)或则姓名为wangwu的学员GET /woniu47/_search?q=age:>=25 +age<=28 name:wangwuGET /woniu47/_search?q=age[25 TO 28] name:wangwu中括号可以换成大括号,中括号有=大括号没有
分页:
查询20岁以上的学员,显示3条GET /woniu47/_search?q=age:>=20&size=3查询20岁以上的学员,每页显示3条,显示第2页
GET /woniu47/_search?q=age:>=20&size=3&from=3查询参数说明:
| Name | Description |
|---|---|
| q | 标识查询字符串 |
| df | 在查询中,没有定义字段前缀的情况下默认字段的前缀 |
| analyzer | 在分析查询字符串时,分析器的名字 |
| default_operator | 被用到的默认操作,有AND和OR两种,默认是OR |
| explain | 对于每一个命中,对怎样得到命中得分的计算给出一个解释 |
| _source | 将其设置为false,查询就会放弃检索_source字段。也可以通过设置检索部分文档 |
| fields | 命中的文档返回的字段 |
| sort | 排序执行,可以fieldName、fieldName:asc |
| track_scores | 当排序的时候,将其设置为true,可以返回相关度得分 |
| from | 分页查询起始点,默认0 |
| size | 查询数量,默认10 |
| search_type | 搜索操作执行的类型 |
| …… | …… |
5 索引与分词
5.1 什么是倒排索引
倒排索引是先将文档进行分词处理,标记每个词都出现在哪些文档里面,这样就可以快速查询某个词所出现的文档位置。与之对应的是“正排索引”,例如我们看一本书的目录,从前往后查找目录,就是正排索引。
我们先来看3组文档,我们将文档编号分别列为1、2、3。
这3个文档里,核心词是“卫生间隔断”,如果你在搜索引擎上,直接搜索卫生间隔断,抛开文章内容,单看标题,哪个排第一?没错,就是文档1会出现在第一位,为什么?
因为倒排索引里,会通过单词词典,统计一个单词在文档里出现的位置。我们将上述文档里出现的词,都赋予一个ID。
这是一个最简单的倒排索引示意图:
5.2 什么是分词
分词是指将文本转换成一系列单词的过程,也可以叫文本分析,在es里面称为Analysis,如下图所示:
分词器是ES中专门处理分词的组件,英文为Analyzer,它的组成如下:
- Character Filters
针对原始文本进行处理,比如去除html特殊标记 - Tokenizer
将原始文本按照一定规则切分为单词 - Token Filters
针对tokenizer处理的单词进行再加工,比如转小写、删除或新增等处理
5.3 Analyze API
ES提供了一个测试分词的api接口,方便验证分词效果,endpoint是_analyze
直接指定analyzer进行测试
POST _analyze { "analyzer": "standard", "text": "hello world" }直接指定索引中的字段进行测试
POST woniu47/_analyze { "field": "name", "text": "hello java" }ES自带分词器如下:
| Name | Description |
|---|---|
| standard | 默认分词器,按词切分,支持多语言,小写处理 |
| simple | 按照非字母切分,小写处理 |
| whitespace | 按照空格切分 |
| stop | 相比simple 多了stop word处理(语气2组词等修饰性的词语,比如the、an、的、这等等) |
| keyword | 不分词,直接将输入作为一个单词输出 |
| pattern | 通过正则表达式自定义分割符,默认是\W+, 即非字词的符号作为分隔符 |
5.4 中文分词器
中文分词器是将一个汉字序列切分成一个一个单独的词。在英语中,单词之间是以空格作为自然分界符,汉语中词没有一个形式上的分界符。上下文不同,分词结果迥异,比如交叉歧义问题,比如下面两种分词都合理:
- 乒乓球拍/卖/完了
- 乒乓球/拍卖/完了
常用分词系统
- IK
- 实现中英文单词的切分,支持ik_smart、ik_max_word等模式,
- 可自定义词库,支持热更新分词词典
- https://github.com/medcl/elasticsearch-analysis-ik
- 实现中英文单词的切分,支持ik_smart、ik_max_word等模式,
- jieba
- python中最流行的分词系统,支持分词和词性标注
- 支持繁体分词、自定义词典、并行分词等
- https://github.com/sing1ee/elasticsearch-jieba-plugin
IK的使用
- 安装
- git clone https://github.com/medcl/elasticsearch-analysis-ik
- cd elasticsearch-analysis-ik
- mvn clean
- mvn compile
- mvn package
- 拷贝和解压release下的文件: #{project_path}/elasticsearch-analysis-ik/target/releases/elasticsearch-analysis-ik-*.zip 到你的 elasticsearch 插件目录, 如: plugins/ik 重启elasticsearch
测试
POST _analyze { "analyzer": "ik_smart", "text": "中华人民共和国国歌" }POST _analyze { "analyzer": "ik_max_word", "text": "中华人民共和国国歌" }ik_smart与ik_max_word的区别
ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合,适合 Term Query;
ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”,适合 Phrase 查询
6 Mapping(文档映射)
ES的文档映射(mapping)机制用于进行字段类型确认(字段是什么类型,什么分词器),将每个字段匹配为一种确定的数据类型。类似于数据库的表结构定义,主要作用如下:
- 定义Index下的字段名(Field Name)
- 定义字段的类型,比如数值型、字符串型、布尔型等
- 定义倒排索引相关配置,比如是否索引、记录position等
查看某个Index的Mapping
GET woniu47/_mapping
6.1 自定义Mapping
创建一个Index的映射
PUT woniu48
{
"mappings": {
"properties": {
"name": {
"type": "keyword"
},
"age": {
"type": "integer"
},
"desc": {
"type": "text",
"analyzer": "ik_smart"
}
}
}
}
Mapping中的字段类型一旦设定后,禁止直接修改,因为Lucene实现的倒排索引生成后不允许修改
通过dynamic参数来控制字段的新增
- true(默认)允许自动新增字段
- false 不允许自动新增字段,但是文档可以正常写入,但无法对字段进行查询等操作
strict 文档不能写入,报错
PUT woniu48 { "mappings": { "dynamic": "false", "properties": { "name": { "type": "keyword" }, "age": { "type": "integer" }, "desc": { "type": "text", "analyzer": "ik_smart" } } } }copy_to
将该字段的值复制到目标字段,实现类似_all的作用
不会出现在_source中,只用来搜索
PUT woniu48 { "mappings": { "dynamic": "false", "properties": { "name": { "type": "keyword", "copy_to": "full_name" }, "age": { "type": "integer" }, "desc": { "type": "text", "analyzer": "ik_smart", "copy_to": "full_name" }, "full_name": { "type": "text" } } } }index
控制当前字段是否索引,默认为true,即记录索引,false不记录,即不可搜索
PUT woniu48 { "mappings": { "dynamic": "false", "properties": { "name": { "type": "keyword", "index": false }, "age": { "type": "integer" }, "desc": { "type": "text", "analyzer": "ik_smart", "copy_to": "full_name" } } } }null_value
当字段遇到null值时的处理策略,默认为null,即空值,此时ES会忽略该值,不会创建索引。可以通过设定该值得一个空值的替换值来对空值进行索引,可以用替换值进行对空值的搜索
PUT woniu48 { "mappings": { "properties": { "name": { "type": "keyword" }, "age": { "type": "integer" }, "desc": { "type": "text", "analyzer": "ik_smart" }, "sex": { "type": "keyword", "null_value": "null" } } } }使用null替换了空值,下面添加一个空值
PUT woniu48/_doc/1 { "name": "zs", "age": 23, "desc": "中国人很好", "sex": null }可以使用替换的null值来进行空值搜索
GET woniu48/_search { "query": { "match": { "sex": "null" } } }ignore_above
该属性是keyword类型的一个属性,用来规定字段值长度,超出这个长度的字段将不会被索引,但是会存储。
PUT woniu48 { "mappings": { "properties": { "name": { "type": "text", "fields": { "pinyin": { "type": "keyword", "ignore_above": 5 } } }, "age": { "type": "integer" } } } }多字段特性 multi-fields
允许对同一个字段采用不同的配置,比如分词,常见的例子如一个字段我需要通过索引分词查询也需要能够通过精装匹配查询
PUT woniu48 { "mappings": { "properties": { "name": { "type": "text", "fields": { "pinyin": { "type": "keyword" } } }, "age": { "type": "integer" } } } }index_options
用来控制倒排索引记录的内容
docs: 只记录doc id
- freqs : 记录doc id和term frequencies
- positions: 记录doc id、term frequencies和term position
- offsets: 记录doc id、term frequencies、term position和character offsets
text类型默认配置为positions,其他默认为docs,记录内容越多,占用空间越大
6.2 数据类型
- 核心数据类型
- 字符串型: text、keyword
- 数值型: long、integer、short、byte、double、float、half_float、scaled_float
- 日期类型: date
- 布尔类型: boolean
- 二进制类型: binary
- 范围类型: integer_range、float_range、long_range、double_range、date_range
- 复杂数据类型
- 数组类型: array
- 对象类型: object
- 嵌套类型: nested object
- 地理位置数据类型
- geo_point
- geo_shape
- 专用类型
| JSON类型 | ES类型 |
|---|---|
| null | 忽略 |
| boolean | boolean |
| 浮点类型 | float |
| 整数 | long |
| object | object |
| array | 由第一个非null值得类型决定 |
| string | 匹配为日期格式则设为date类型(默认开启); 匹配为数字的话设为float或long类型(默认关闭)设为text类型,并附带keyword子字段 |
