1、爬虫介绍

1、爬虫介绍
- 1.1为什么需要爬虫？
- 1.2为什么要选择Python做爬虫？
2、数据来源
3、爬虫定义
4、爬虫用途
5、爬虫如何抓取网页上的数据
- 5.1网站的三大特征
- 5.2爬虫设计思路

1.1为什么需要爬虫？

（1）减少重复性动作，提高效率，爬虫可以实现自动化办公；
（2）获取数据，大数据时代、人工智能时代都离不来数据，而获取数据的方式之一就是爬虫；

1.2为什么要选择Python做爬虫？

（1）代码简介，开发效率高；
（2）第三方模块非常丰富；
（3）调用其他接口方便；

2、数据来源

（1）企业的用户数据：淘宝、京东，抖音等等，企业本身拥有的用户数据量就非常大；
（2）爬虫获取的数据：各大搜索引擎，都是通过爬虫来获取互联网中的内容；
（3）数据管理咨询公司：帮一些公司做数据分析，得出一些数据报告；
（4）政府机构提供的公开数据：人口统计、GDP等等；
（5）第三方数据平台购买数据：收集且出售数据，有非法灰色产业；

3、爬虫定义

爬虫（spider）：模拟客户端发送网络请求，接收响应数据，是一种按照一定规则，自动抓取互联网信息的程序；
浏览器可以做的事情，原则上爬虫都是可以做；

4、爬虫用途

（1）抢票
（2）投票：ip，身份证号；
（3）短信轰炸：寻找一些手机短信验证码的网站，然后注册

5、爬虫如何抓取网页上的数据

5.1网站的三大特征

（1）有自己唯一的url；
（2）HTML描述页面信息；
（3）使用http、https协议获取对应的HTML页面；

5.2爬虫设计思路

（1）确定要访问的url地址；
（2）通过HTTP、HTTPS协议获取对应的HTML页面
（3）提取HTML页面有用的数据；