爬虫步骤

浏览 526 扫码分享 2023-02-21 17:33:50

爬虫第一步-获取网页
爬虫第二步-提取信息
爬虫第三步-保存数据
爬虫第四步-分析数据

爬虫第一步-获取网页

爬虫模拟浏览器的工作,向服务器提供请求，获取数据并进行解析。
爬虫需要的基本库：
urlib/requests：发送数据请求，获取网页
爬虫步骤 - 图1

爬虫第二步-提取信息

抓取隐藏在网页源码中的关键信息
python爬虫需要的基本库：
Bs4/Beatufilsoup :
从网页中抓取数据（第一步）
表达式规则建立（第二步）

爬虫第三步-保存数据

保存为TXT或者导入 pandas的dataframe 或者导入数据库

爬虫第四步-分析数据

对数据根据业务指标进行分析和挖掘

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录