urllib - 爬虫的基本流程 - 《Python 学习笔记》

通过 http 库向站点发起请求,即发送一个Request , 请求可以包含而外的 headers 等信息,等待服务器响应

得到的对象可能是 HTML , 可以用正则表达式或者网页解析库进行解析.
可能是json , 转换成 json 对象进行解析
可能是二进制数据(图片等) , 可以保存或进一步数据处理

如果服务器正常响应 , 会得到一个Response , Response的内容便是所要获取的页面内容 , 类型有可能是 HTML json 二进制数据(如图片,视频)等类型

保存形式多样 , 可以保存文本 , 也可以保存到数据库 , 或者保存特定格式的文件
爬虫的基本流程 - 图1

Request 基本流程

爬虫的基本流程 - 图2

爬虫的基本流程 - 图3

爬虫的基本流程 - 图4

爬虫的基本流程 - 图5

可能是经过 js 处理再渲染到网页的

爬虫的基本流程 - 图6