一、参考资料

正则表达式基本语法
正则表达式 - 语法

二、示例

  • runoo+b,可以匹配 runoob、runooob、runoooooob 等,+ 号代表前面的字符必须至少出现一次(1次或多次)。
  • runoo*b,可以匹配 runob、runoob、runoooooob 等,* 号代表前面的字符可以不出现,也可以出现一次或者多次(0次、或1次、或多次)。
  • colou?r 可以匹配 color 或者 colour,? 问号代表前面的字符最多只可以出现一次(0次、或1次)。

    三、常用语法

    表达 0~99 的两位数:

    /[1-9][0-9]?/ /[1-9][0-9]{0,1}/

电子邮箱:

\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)*

网址:

[a-zA-z]+://[^\s]*

四、语法

1、元字符

元字符 匹配内容
. 匹配除换行符以外的任意字符
\w 匹配所有普通字符(数字、字母或下划线)
\s 匹配任意的空白符
\d 匹配数字
\n,\r 匹配一个换行符,匹配一个回车符
\t 匹配一个制表符
\b 匹配一个单词的结尾
^ 匹配字符串的开始位置
$ 匹配字符串的结尾位置
\W 匹配非字母或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符 a 或字符 b
() 子表达式的开始结束符号,匹配括号内的表达式,表示一个组。
[…] 匹配字符组中的字符
[^…] 匹配除了字符组中字符的所有字符

2、量词(限定符)

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 *+?{n}{n,}{n,m} 共6种。
image.png

3、字符组

image.png

4、贪婪模式非贪婪模式

正则表达式默认为贪婪匹配,也就是尽可能多的向后匹配字符,比如 {n,m} 表示匹配前面的内容出现 n 到 m 次(n 小于 m),在贪婪模式下,首先以匹配 m 次为目标,而在非贪婪模式是尽可能少的向后匹配内容,也就是说匹配 n 次即可。

贪婪模式转换为非贪婪模式的方法很简单,在元字符后添加“?”即可实现,如下所示:

image.png
5、正则表达式转义

如果使用正则表达式匹配特殊字符时,则需要在字符前加\表示转意。常见的特殊字符如下:
image.png

五、代码表达(Python中的re模块)

1、参考资料

Python re模块用法详解

2、常用方法

1) re.compile()

该方法用来生成正则表达式对象,其语法格式如下:

regex=re.compile(pattern,flags=0) 参数说明:

  • pattern:正则表达式对象。
  • flags:代表功能标志位,扩展正则表达式的匹配。

    2) re.findall()

    根据正则表达式匹配目标字符串内容。

re.findall(pattern,string,flags=0) 该函数的返回值是匹配到的内容列表,如果正则表达式有子组,则只能获取到子组对应的内容。参数说明如下:

  • pattern:正则表达式对象。
  • string:目标字符串
  • flags:代表功能标志位,扩展正则表达式的匹配。

    3) regex.findall()

    该函数根据正则表达式对象匹配目标字符串内容。其语法格式如下: regex.findall(string,pos,endpos) 参数说明:

  • string 目标字符串。

  • pos 截取目标字符串的开始匹配位置。
  • endpos 截取目标字符串的结束匹配位置。

    4) re.split()

    该函数使用正则表达式匹配内容,切割目标字符串。返回值是切割后的内容列表。参数说明: re.split(pattern,string,flags = 0) 参数说明:
  • pattern:正则表达式。
  • string:目标字符串。
  • flags:功能标志位,扩展正则表达式的匹配。

    5) re.sub()

    该函数使用一个字符串替换正则表达式匹配到的内容。返回值是替换后的字符串。其语法格式如下: re.sub(pattern,replace,string,max,flags = 0) 其参数说明:
  • pattern:正则表达式。
  • replace:替换的字符串。
  • string:目标字符串。
  • max:最多替换几处,默认替换全部,
  • flags:功能标志位,扩展正则表达式的匹配。

    6) re.search()

    匹配目标字符串第一个符合的内容,返回值为匹配的对象。语法格式如下:

re.search(pattern,string,flags=0) 参数说明:

  • pattern:正则表达式
  • string:目标字符串

3、flags功能标志位

功能标志位的作用是扩展正则表达的匹配功能。常用的 flag 如下所示:

缩写元字符 说明
A 元字符只能匹配 ASCII码。
I 匹配忽略字母大小写。
S 使得.元字符可以匹配换行符。
M 使 ^ $ 可以匹配每一行的开头和结尾位置。

注意:可以同时使用福多个功能标志位,比如 flags=re.I|re.S。
用法:
下面使用贪婪和非贪婪两种模式来匹配 HTML 元素,分别,如下所示:

import re html=”””

www.biancheng.net

编程帮

“””

贪婪匹配,re.S可以匹配换行符#创建正则表达式对象

pattern=re.compile(‘

.*

‘,re.S)

匹配HTMLX元素,提取信息

re_list=pattern.findall(html) print(re_list)

非贪婪模式匹配,re.S可以匹配换行符

pattern=re.compile(‘

.?

‘,re.S) re_list=pattern.findall(html) *print(re_list) 输出结果: [‘

www.biancheng.net

\n

编程帮

‘] [‘

www.biancheng.net

‘, ‘

编程帮

‘]

从上述输出结果可以得出非贪婪模式比适合提取 HTML 信息。

4、正则表达式分组

通过正则表达式分组可以从匹配的信息中提取出想要的信息。示例演示:

正则表达式分组

website=”编程帮 www.biancheng.net”

提取所有信息

注意此时正则表达式的 “.” 需要转义因此使用 .

pattern_1=re.compile(‘\w+\s+\w+.\w+.\w+’) print(pattern_1.findall(website))

提取匹配信息的第一项

pattern_2=re.compile(‘(\w+)\s+\w+.\w+.\w+’) print(pattern_2.findall(website))

有两个及以上的()则以元组形式显示

pattern_3=re.compile(‘(\w+)\s+(\w+.\w+.\w+)’) print(pattern_3.findall(website))

输出结果: [‘编程帮 www.biancheng.net’] [‘编程帮’] [(‘编程帮’, ‘www.biancheng.net’)]

正则表达式分组是提取信息的常用方式。当需要哪个特定信息的时候,就可以通过分组(也就是加括号)的方式获得。
正则表达式分组不捕获(?:):不捕获就是在分组的前边加上?:,可以在不需要捕获分组的表达式中使用,加快表达式执行速度。

5、去中文

import re ‘’’
此类句子:
37. Talent without working hard is nothing.
沒有努力,天份不代表什麼。

23、No pains, no gains.一分耕耘,一分收获。
‘’’
pattern = re.compile(‘\d+(?:.|、)(.+)’)
sentence = pattern.findall(article)

_# 去除中文
_pattern_chinese = re.compile(‘[\u4e00-\u9fa5]’)
for i in range(len(sentence)):
sentence[i] = re.sub(‘[\u4e00-\u9fa5]*|,|。’, ‘’, sentence[i])