什么是爬虫爬虫可以做什么爬虫的本质是什么基本流程更进一步常用的库 什么是爬虫网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。 爬虫可以做什么你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据都可以通过爬虫获取。 爬虫的本质是什么模拟浏览器打开网页,获取网页中我们想要的那部分数据。 基本流程 准备工作获取数据解析内容保存数据 更进一步数据采集 数据清洗数据聚合 常用的库bs4 网页解析获取数据 pip3 install Beautifulsoup4 re 正则表达式,进行文字匹配urllib 制定URL,获取网页数据 pip install urllib3xlwt 进行excel操作 pip3 install xlwtsqlite3 进行SQLite数据库操作