什么是网络爬虫

浏览 448 扫码分享 2023-02-19 17:37:48

什么是爬虫
爬虫可以做什么
爬虫的本质是什么
基本流程
更进一步
常用的库

什么是爬虫

网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网
数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流
的爬取策略。

爬虫可以做什么

你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据
都可以通过爬虫获取。

爬虫的本质是什么

模拟浏览器打开网页,获取网页中我们想要的那部分数据。

基本流程

准备工作
获取数据
解析内容
保存数据

更进一步
数据采集
数据清洗
数据聚合

常用的库
bs4 网页解析获取数据 pip3 install Beautifulsoup4
re 正则表达式，进行文字匹配
urllib 制定URL，获取网页数据 pip install urllib3
xlwt 进行excel操作 pip3 install xlwt
sqlite3 进行SQLite数据库操作

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录