元字符
- . 匹配除换行符以外的任意字符
- \w 匹配字母或数字或下划线或汉字
- \s 匹配任意的空白符
- \d 匹配数字
- \b 匹配单词的开始或结束
- ^ 匹配字符串的开始,匹配的时位置
- $ 匹配字符串的结束
重复
- 重复零次或多次
- 重复一次或更多次
- ? 重复零次或一次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
分枝条件
指的是有几种规则,如果满足其中任意一种都应该当成匹配,具体的方法是用|把不同的规则分隔开
\d{5}|\d{5}-\d{4}:只会匹配5位的邮编(以及9位邮编的前5位)
匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会再管其他的条件了
分组
| 分类 | 代码/语法 | 说明 |
|---|---|---|
| 捕获 | (exp) | 匹配exp,并捕获文本到自动命名的组里 |
| (? |
匹配exp,不能够捕获文本到名称为name的组里 | |
| (?:exp) | 匹配exp,不捕获匹配的文本,也不给此分组分配组号 | |
| 零宽断言 | (?=exp) | 匹配exp前面的位置 |
| (?<=exp) | 匹配exp后面的位置 | |
| (?!exp) | 匹配后面跟的不是exp的位置 | |
| (?<!exp) | 匹配前面不是exp的位置 | |
| 注释 | (?#comment) | 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读 |
后向引用
使用小括号指定一个子表达式后,匹配这个子表达式的文本(此分组捕获的内容)可以在表达式或其他程序中做进一步的处理。
默认情况下,每个分组自动拥有一个组号。
后向引用用于重复搜索前面某个分组匹配的文本。如,\1代表分组1匹配的文本
eg:\b(\w+)\b\s+\1\b 可以用来匹配重复的单词
零宽断言
- 用于验证某个位置,之前或之后,应该满足一定的条件(即断言)
- 该行为不会使位置发生变化,所以为零宽
- 断言用来声明一个应该为真的事实,只有当断言为真时才会继续进行匹配
\b\w+(?=ing\b):匹配以 ing 结尾的单词的前面部分(不包括 ing)
(?<=\bre)\w+\b:匹配以re开头的单词的后半部分(不包括 re)
