网络爬虫 - 网络爬虫简单入门 - 《Web 开发学习笔记》

基本步骤

基本步骤

准备url
封装成函数
设置 User-Agent 头（反反爬）

安装这个库pip install **requests**
遇到问题安装后vsc仍说找不到模块，解决方法

"python.analysis.extraPaths": [
    "./src",　　　　　　　　// 自定义模块的相对路径，可多个，可绝对路径　　
    "./modules"
]

requets 默认User-Agent 会直接告诉网站我是爬虫就很笨就会给轻易拦截
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'

设置超时和重试增加容错性
等待随机时间（反反爬）
专门用来下载资源（如图片）的函数
保存数据—
- 推荐使用 json
找到下一个资源的url——
- 寻找规律或是其他有效的方法
提取有效信息——
- 根据 url 获取的结果是 html 节点——
  - 利用html标签和属性进行定位——
    - 使用re 正则表达式库
    - 定位借助的信息：
      - 固定的
      - 变化的
      - ——这些就是正则表达式的使用了

我的demo