网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引；

网页抓取：用爬虫（或者机器人）自动替你完成网页抓取数据工作，一般是先存储起来，放到数据库或者电子表格中，以备检索或者进一步分析使用。

滚雪球功能：找到链接、获得Web页面、抓取指定信息、存储；可使用自动化方式完成。
Python语言的重要特色：利用强大的软件工具包（许多都是第三方提供）。你只需要编写简单的程序，就能自动解析网页，抓取数据。

爬虫 - 图1

Python爬虫案例—豆瓣电影

一、什么是爬虫？

按照一定规则，自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和有限性，根据用户需求定向抓取相关网页并分析，已经成为主流的爬取策略。

爬虫的本质？
模拟浏览器打开网页，获取网页中我们想要的那部分数据存储到数据库中。

爬虫 - 图2
爬虫：索引区到临时库；
数据可视化：临时库到搜索引擎查询；

爬虫 - 图3

爬虫 - 图4
系统模块、第三方模块、自定义模块；
爬虫 - 图5

beautifulsoup：将html文件
案例地址：https://movie.douban.com/top250