基本步骤

  • 准备url
  • 封装成函数
  • 设置 User-Agent 头(反反爬)

安装这个库pip install **requests**
遇到问题 安装后vsc仍说找不到模块,解决方法

  1. "python.analysis.extraPaths": [
  2. "./src",        // 自定义模块的相对路径,可多个,可绝对路径  
  3. "./modules"
  4. ]

requets 默认User-Agent 会直接告诉网站 我是爬虫 就很笨 就会给轻易拦截
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'

  • 设置超时和重试增加容错性
  • 等待随机时间(反反爬)
  • 专门用来下载资源(如图片)的函数
  • 保存数据—
    • 推荐使用 json
  • 找到下一个资源的url——
    • 寻找规律或是其他有效的方法
  • 提取有效信息——
    • 根据 url 获取的结果是 html 节点——
      • 利用html标签和属性进行定位——
        • 使用re 正则表达式库
        • 定位借助的信息:
          • 固定的
          • 变化的
          • ——这些就是正则表达式的使用了

我的demo