基本步骤
- 准备url
- 封装成函数
- 设置 User-Agent 头(反反爬)
安装这个库pip install **requests**
遇到问题 安装后vsc仍说找不到模块,解决方法
"python.analysis.extraPaths": [
"./src", // 自定义模块的相对路径,可多个,可绝对路径
"./modules"
]
requets 默认User-Agent 会直接告诉网站 我是爬虫 就很笨 就会给轻易拦截'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
- 设置超时和重试增加容错性
- 等待随机时间(反反爬)
- 专门用来下载资源(如图片)的函数
- 保存数据—
- 推荐使用 json
- 找到下一个资源的url——
- 寻找规律或是其他有效的方法
- 提取有效信息——
- 根据 url 获取的结果是 html 节点——
- 利用html标签和属性进行定位——
- 使用re 正则表达式库
- 定位借助的信息:
- 固定的
- 变化的
- ——这些就是正则表达式的使用了
- 利用html标签和属性进行定位——
- 根据 url 获取的结果是 html 节点——