- 发起请求
通过 http 库向站点发起请求,即发送一个Request , 请求可以包含而外的 headers 等信息,等待服务器响应
- 解析内容
得到的对象可能是 HTML , 可以用正则表达式或者网页解析库进行解析.
可能是json , 转换成 json 对象进行解析
可能是二进制数据(图片等) , 可以保存或进一步数据处理
- 获取响应内容
如果服务器正常响应 , 会得到一个Response , Response的内容便是所要获取的页面内容 , 类型有可能是 HTML json 二进制数据(如图片,视频)等类型
- 保存数据
保存形式多样 , 可以保存文本 , 也可以保存到数据库 , 或者保存特定格式的文件
Request 基本流程
Response 基本流程
抓取数据基本流程
解析方式
如果响应的HTML 和网页中的不一样
可能是经过 js 处理再渲染到网页的
js 渲染的问题专门解决


