获取网页内所有图片url的方法

  1. # 使用get()来获取url
  2. r = requests.get(url)
  3. imglist = re.findall('src="(.+?\.jpg)" pic_ext',r.text)
  4. x = 0
  5. # 遍历
  6. for imgurl in imglist:
  7. # 获取获得的从imglist中遍历得到的imgurl
  8. imgres = requests.get(imgurl)
  9. with open("{}.jpg".format(x), "wb") as f:
  10. f.write(imgres.content)
  11. x +=1
  12. print("第", x ,"张")
  13. print("下载完毕")

匹配中间字符串

  1. re.findall(r'(?<=内容介绍:).*?(?=作者)', descrip)
  2. 匹配两个字符串AB中间的字符串包含AB
  3. 表达式: A.*?B(“.“表示任意字符,“?”表示匹配0个或多个)
  4. 示例: Abaidu.comB
  5. 结果: Awww.apizl.comB
  6. 匹配两个字符串AB中间的字符串包含A但是不包含B
  7. 表达式: A.*?(?=B)
  8. 示例: Awww.apizl.comB
  9. 结果: Awww.apizl.com
  10. 匹配两个字符串AB中间的字符串且不包含AB
  11. 表达式: (?<=A).*?(?=B)
  12. 这种写法没看懂,我猜测是如果不包含前面匹配的字符写法(?<=要匹配的开始字符),不包含后面要匹配的字符写法(?=要匹配的结束字符)
  13. 示例: Awww.baidu.comB
  14. 结果: www.baidu.com

更多:
https://blog.csdn.net/liao392781/article/details/80181088