正则表达式的使用

浏览 294 扫码分享 2022-10-27 09:11:46

获取网页内所有图片url的方法
匹配中间字符串

获取网页内所有图片url的方法

# 使用get()来获取url
r = requests.get(url)
imglist = re.findall('src="(.+?\.jpg)" pic_ext',r.text)
x = 0
# 遍历
for imgurl in imglist:
   # 获取获得的从imglist中遍历得到的imgurl
   imgres = requests.get(imgurl)
   with open("{}.jpg".format(x), "wb") as f:
       f.write(imgres.content)
       x +=1
       print("第", x ,"张")
print("下载完毕")

匹配中间字符串

re.findall(r'(?<=内容介绍：).*?(?=作者)', descrip)
匹配两个字符串A与B中间的字符串包含A与B： 
表达式: A.*?B（“.“表示任意字符，“？”表示匹配0个或多个） 
示例: Abaidu.comB 
结果: Awww.apizl.comB 
匹配两个字符串A与B中间的字符串包含A但是不包含B： 
表达式: A.*?(?=B) 
示例: Awww.apizl.comB 
结果: Awww.apizl.com 
匹配两个字符串A与B中间的字符串且不包含A与B： 
表达式: (?<=A).*?(?=B) 
这种写法没看懂，我猜测是如果不包含前面匹配的字符写法（?<=要匹配的开始字符），不包含后面要匹配的字符写法（？=要匹配的结束字符） 
示例: Awww.baidu.comB 
结果: www.baidu.com

更多：
https://blog.csdn.net/liao392781/article/details/80181088

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录