1、爬虫介绍

1.1为什么需要爬虫?

(1)减少重复性动作,提高效率,爬虫可以实现自动化办公;
(2)获取数据,大数据时代、人工智能时代都离不来数据,而获取数据的方式之一就是爬虫;

1.2为什么要选择Python做爬虫?

(1)代码简介,开发效率高;
(2)第三方模块非常丰富;
(3)调用其他接口方便;

2、数据来源

(1)企业的用户数据:淘宝、京东,抖音等等,企业本身拥有的用户数据量就非常大;
(2)爬虫获取的数据:各大搜索引擎,都是通过爬虫来获取互联网中的内容;
(3)数据管理咨询公司:帮一些公司做数据分析,得出一些数据报告;
(4)政府机构提供的公开数据:人口统计、GDP等等;
(5)第三方数据平台购买数据:收集且出售数据,有非法灰色产业;

3、爬虫定义

爬虫(spider):模拟客户端发送网络请求,接收响应数据,是一种按照一定规则,自动抓取互联网信息的程序;
浏览器可以做的事情,原则上爬虫都是可以做;

4、爬虫用途

(1)抢票
(2)投票:ip,身份证号;
(3)短信轰炸:寻找一些手机短信验证码的网站,然后注册

5、爬虫如何抓取网页上的数据

5.1网站的三大特征

(1)有自己唯一的url;
(2)HTML描述页面信息;
(3)使用http、https协议获取对应的HTML页面;

5.2爬虫设计思路

(1)确定要访问的url地址;
(2)通过HTTP、HTTPS协议获取对应的HTML页面
(3)提取HTML页面有用的数据;