什么是爬虫

网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网
数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流
的爬取策略。

爬虫可以做什么

你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据
都可以通过爬虫获取。

爬虫的本质是什么

模拟浏览器打开网页,获取网页中我们想要的那部分数据。

基本流程

  • 准备工作
  • 获取数据
  • 解析内容
  • 保存数据

    更进一步

  • 数据采集

  • 数据清洗
  • 数据聚合

    常用的库

  • bs4 网页解析获取数据 pip3 install Beautifulsoup4

  • re 正则表达式,进行文字匹配
  • urllib 制定URL,获取网页数据 pip install urllib3
  • xlwt 进行excel操作 pip3 install xlwt
  • sqlite3 进行SQLite数据库操作