Regexp Query(正则表达式查询)

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-regexp-query.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=4260873

贡献者 : @小布丁

regexp (正则表达式)查询允许您使用正则表达式进行项查询。有关支持的正则表达式语言的详细信息,请参阅正则表达式语法。第一个句子中的 “项查询” 意味着 Elasticsearch 会将正则表达式应用于由该字段生成的项,而不是字段的原始文本。

注意: regexp (正则表达式)查询的性能很大程度上取决于所选的正则表达式。匹配一切像 “.*” ,是非常慢的,使用回顾正则表达式也是如此。如果可能,您应该尝试在正则表达式开始之前使用长前缀。通配符匹配器“.*?+” 将主要降低性能。

  1. GET /_search
  2. {
  3. "query": {
  4. "regexp":{
  5. "name.first": "s.*y"
  6. }
  7. }
  8. }

还支持 boost

  1. GET /_search
  2. {
  3. "query": {
  4. "regexp":{
  5. "name.first":{
  6. "value":"s.*y",
  7. "boost":1.2
  8. }
  9. }
  10. }
  11. }

您还可以使用特殊标志

  1. GET /_search
  2. {
  3. "query": {
  4. "regexp":{
  5. "name.first": {
  6. "value": "s.*y",
  7. "flags" : "INTERSECTION|COMPLEMENT|EMPTY"
  8. }
  9. }
  10. }
  11. }

特殊标志可以是 ALL (默认)、ANYSTRINGCOMPLEMENTEMPTYINTERSECTIONINTERVAL 以及 NONE 。请检查 Lucene 文档的其他含义。

正则表达式是危险的,因为很容易意外地创建一个无害的、需要指数数量的内部确定的自动机状态(以及相应的 RAMCPU )为 Lucene 执行。 Lucene 使用 max_determinized_states 设置(默认为10000)阻止这些操作。您可以提高此限制以允许执行更复杂的正则表达式。

  1. GET /_search
  2. {
  3. "query": {
  4. "regexp":{
  5. "name.first": {
  6. "value": "s.*y",
  7. "flags" : "INTERSECTION|COMPLEMENT|EMPTY",
  8. "max_determinized_states": 20000
  9. }
  10. }
  11. }
  12. }

正则表达式语法

正则表达式查询由 regexpquery_string 查询支持。 Lucene 正则表达式引擎不 Perl-兼容 ,但支持较小范围的运算符。

注意:我们不会尝试解释正则表达式,而只是解释支持的运算符。

标准操作符

锚定

大多数正则表达式引擎允许您匹配字符串的任何部分。如果你希望正则表达式模式从字符串的开头开始或者在字符串的结尾处结束,那么你必须具体地锚定它,使用 “^” 表示开头或使用 “$” 表示结束。

Lucene 的模式总是锚定的。提供的模式必须匹配整个字符串。对于字符串 “abcde”

  1. ab.* # 匹配
  2. abcd # 不匹配

允许的字符

任何 Unicode 字符都可以在模式中使用,但某些字符是保留的,必须进行转义。标准保留字符为:

  1. . ? + * | { } [ ] ( ) " \

如果启用可选功能(见下文),则还可以保留这些字符:

  1. # @ & < > ~

任何保留字符都可以使用反斜杠 “\ *” 转义,其中包括一个字面反斜杠字符:“\”

此外,任何字符(双引号除外)在用双引号括起时,将被逐字解释:

  1. john"@smith.com"

匹配任意字符

字符 ”.” 可以用来表示任何字符。对于字符串 “abcde”

  1. ab... # 匹配
  2. a.c.e # 匹配

匹配一个或多个

加号 “+” 可以用于重复小先前模型一次或多次。对于字符串 “aaabbb”

  1. a+b+ # 匹配
  2. aa+bb+ # 匹配
  3. a+.+ # 匹配
  4. aa+bbb+ # 匹配

匹配零个或多个

星号“*” 可以用于匹配小先前模型零次或多次。对于字符串 “aaabbb”

  1. a*b* # 匹配
  2. a*b*c* # 匹配
  3. .*bbb.* # 匹配
  4. aaa*bbb* # 匹配

匹配零个或一个

问号 “?” 使得先前模型是可选的。它匹配零或一次。对于字符串 “aaabbb”

  1. aaa?bbb? # 匹配
  2. aaaa?bbbb? # 匹配
  3. .....?.? # 匹配
  4. aa?bb? # 不匹配

最小最大匹配次数

大括号 “{}” 可以用于指定前一先前模型可以重复的最小和最大(可选)次数。允许的形式是:

  1. {5} # 重复匹配5次。
  2. {2,5} # 重复匹配最小2次,最多5次。
  3. {2,} # 重复匹配最小2次。

例如字符串 “aaabbb”

  1. a{3}b{3} # 匹配
  2. a{2,4}b{2,4} # 匹配
  3. a{2,}b{2,} # 匹配
  4. .{3}.{3} # 匹配
  5. a{4}b{4} # 不匹配
  6. a{4,6}b{4,6} # 不匹配
  7. a{4,}b{4,} # 不匹配

分组

括号 “()” 可以用于形成子模型。上面列出的数量运算符以最短的先前模型操作,它可以是一个组。对于字符串 “ababab”

  1. (ab)+ # 匹配
  2. ab(ab)+ # 匹配
  3. (..)+ # 匹配
  4. (...)+ # 不匹配
  5. (ab)* # 匹配
  6. abab(ab)? # 匹配
  7. ab(ab)? # 不匹配
  8. (ab){3} # 匹配
  9. (ab){1,2} # 不匹配

交替

管道符号 “|” 作为 OR 运算符。如果左侧或右侧的模式匹配,匹配将成功。交替适用于 longest pattern (最长的模型),而不是最短的。对于字符串 “aabb”

  1. aabb|bbaa # 匹配
  2. aacc|bb # 不匹配
  3. aa(cc|bb) # 匹配
  4. a+|b+ # 不匹配
  5. a+b+|b+a+ # 匹配
  6. a+(b|c)+ # 匹配

字符类

潜在字符的范围可以通过将它们包围在方括号 “[]” 中来表示为字符类。前导 “^” 排除字符类。允许的形式是:

  1. [abc] # 'a' or 'b' or 'c'
  2. [a-c] # 'a' or 'b' or 'c'
  3. [-abc] # '-' or 'a' or 'b' or 'c'
  4. [abc\-] # '-' or 'a' or 'b' or 'c'
  5. [^abc] # any character except 'a' or 'b' or 'c'
  6. [^a-c] # any character except 'a' or 'b' or 'c'
  7. [^-abc] # any character except '-' or 'a' or 'b' or 'c'
  8. [^abc\-] # any character except '-' or 'a' or 'b' or 'c'

请注意,破折号“ - ”表示一个字符范围,除非它是第一个字符或者使用反斜杠转义。

例如字符串 “abcd”:

ab[cd]+ # 匹配 [a-d]+ # 匹配 [^a-d]+ # 不匹配

可选运算符

默认情况下,这些运算符可用,因为 flags 参数默认为 ALL 。不同的标志组合(用 “|” 连接)可用于 启用/禁用 特定的运算符:

  1. {
  2. "regexp": {
  3. "username": {
  4. "value": "john~athon<1-5>",
  5. "flags": "COMPLEMENT|INTERVAL"
  6. }
  7. }
  8. }

Complement (补集)

补充可能是最有用的选择。跟随波浪 “〜” 的最短模型是无效的。例如 “ab〜cd” 表示:

  • “a” 开头。
  • 跟在 “b” 后面。
  • 后面是任何长度的字符串,除了 “c”
  • “d” 结束。

例如字符串 “abcdef”

  1. ab~df # 匹配
  2. ab~cf # 匹配
  3. ab~cdef # 不匹配
  4. a~(cb)def # 匹配
  5. a~(bc)def # 不匹配

启用 COMPLEMENT 或 ALL 标志。

Interval (间隔)

interval 选项允许使用由尖括号 “<>” 括起来的数字范围。对于字符串 “foo80”

  1. foo<1-100> # 匹配
  2. foo<01-100> # 匹配
  3. foo<001-100> # 不匹配

启用 INTERVAL 或 ALL 标志。

Intersection (交集)

符号 “&” 连接两个模式,必须同时匹配这两个模式。对于字符串 “aaabbb”

  1. aaa.+&.+bbb # 匹配
  2. aaa&bbb # 不匹配

使用此功能通常意味着您应该重写正则表达式。

启用 INTERSECTIONALL 标志。

Any string (任意字符串)

符号 “@” 匹配整个字符串。这可以与上面的交集和补集结合来表达 “除外的一切” 。例如:

  1. @&~(foo.+) # 除了开头的 "foo" 以外的任意字符串。

启用 ANYSTRING ALL 标志。