1. 发起请求

通过 http 库向站点发起请求,即发送一个Request , 请求可以包含而外的 headers 等信息,等待服务器响应

  1. 解析内容

得到的对象可能是 HTML , 可以用正则表达式或者网页解析库进行解析.
可能是json , 转换成 json 对象进行解析
可能是二进制数据(图片等) , 可以保存或进一步数据处理

  1. 获取响应内容

如果服务器正常响应 , 会得到一个Response , Response的内容便是所要获取的页面内容 , 类型有可能是 HTML json 二进制数据(如图片,视频)等类型

  1. 保存数据

保存形式多样 , 可以保存文本 , 也可以保存到数据库 , 或者保存特定格式的文件
爬虫的基本流程 - 图1

Request 基本流程

爬虫的基本流程 - 图2

Response 基本流程

爬虫的基本流程 - 图3

抓取数据基本流程

爬虫的基本流程 - 图4

解析方式

爬虫的基本流程 - 图5

如果响应的HTML 和网页中的不一样

可能是经过 js 处理再渲染到网页的

js 渲染的问题专门解决

爬虫的基本流程 - 图6

  1. 分析 ajax 请求
  2. 模拟浏览器
  3. 模拟 js 渲染

    保存数据的方式

    爬虫的基本流程 - 图7