元字符

  • . 匹配除换行符以外的任意字符
  • \w 匹配字母或数字或下划线或汉字
  • \s 匹配任意的空白符
  • \d 匹配数字
  • \b 匹配单词的开始或结束
  • ^ 匹配字符串的开始,匹配的时位置
  • $ 匹配字符串的结束

重复

    • 重复零次或多次
    • 重复一次或更多次
  • ? 重复零次或一次
  • {n} 重复n次
  • {n,} 重复n次或更多次
  • {n,m} 重复n到m次

分枝条件

指的是有几种规则,如果满足其中任意一种都应该当成匹配,具体的方法是用|把不同的规则分隔开
\d{5}|\d{5}-\d{4}:只会匹配5位的邮编(以及9位邮编的前5位)
匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会再管其他的条件了

分组

分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?exp) (?’name’exp) 匹配exp,不能够捕获文本到名称为name的组里
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

后向引用

使用小括号指定一个子表达式后,匹配这个子表达式的文本(此分组捕获的内容)可以在表达式或其他程序中做进一步的处理。
默认情况下,每个分组自动拥有一个组号。
后向引用用于重复搜索前面某个分组匹配的文本。如,\1代表分组1匹配的文本
eg:\b(\w+)\b\s+\1\b 可以用来匹配重复的单词

零宽断言

  • 用于验证某个位置,之前或之后,应该满足一定的条件(即断言)
  • 该行为不会使位置发生变化,所以为零宽
  • 断言用来声明一个应该为真的事实,只有当断言为真时才会继续进行匹配

\b\w+(?=ing\b):匹配以 ing 结尾的单词的前面部分(不包括 ing)
(?<=\bre)\w+\b:匹配以re开头的单词的后半部分(不包括 re)

平衡组/递归匹配