网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网网络机器人。其目的一般为编纂网络索引

网页抓取:用爬虫(或者机器人)自动替你完成网页抓取数据工作,一般是先存储起来,放到数据库或者电子表格中,以备检索或者进一步分析使用。

滚雪球功能:找到链接、获得Web页面、抓取指定信息、存储;可使用自动化方式完成。
Python语言的重要特色:利用强大的软件工具包(许多都是第三方提供)。你只需要编写简单的程序,就能自动解析网页,抓取数据。

爬虫 - 图1

Python爬虫案例—豆瓣电影

来源
博客分享

一、什么是爬虫?

按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和有限性,根据用户需求定向抓取相关网页并分析,已经成为主流的爬取策略。

爬虫的本质?
模拟浏览器打开网页,获取网页中我们想要的那部分数据存储到数据库中。

二、蜘蛛的爬行原理

爬虫 - 图2
爬虫:索引区到临时库;
数据可视化:临时库到搜索引擎查询;

三、基本流程

爬虫 - 图3

1、准备工作

爬虫 - 图4
系统模块、第三方模块、自定义模块;
爬虫 - 图5

2、获取数据

beautifulsoup:将html文件
案例地址:https://movie.douban.com/top250