爬虫:爬取互联网上的信息
- A 数据挖掘
- B 数据清洗
大数据:从何而来
- 企业产生的用户数据:百度指数
- 数据平台购买:数据交易所
- 政府公开的数据:国家局
- 数据管理咨询公司:麦肯锡
- 爬去网络数据
数据挖掘:需要什么信息
数据清洗:html标签
通用爬虫:搜索引擎,将互联网的网页下载到本地,形成镜像备份
- 抓取网页:选取URL(地址),解析DNS得到IP,下载网页并存储,将已抓取URL放入队列循环……
- 数据存储:存入数据库
- 预处理:提取文字,中文分词,消除噪声,索引处理,链接关系计算,特殊文件处理……
- 提供检索服务:展示给用户
聚焦爬虫:面向特定主题需求
请求和响应
- 服务器:前端(网页信息:数据展示),中间层(数据处理),数据库
- 用户:通过浏览器发送请求(通过网址)
- 响应:中间层对请求进行解析,在数据库中查询数据,通过前端页面显示给用户
URL:统一资源定位符(网址)
scheme://host[:port#]/path/…/[?query-string][#anchor]
- scheme:协议(http,ftp,https)
- host:服务器的IP地址或域名(192.168.……)
- port#:服务器的端口(默认80)
- path:访问资源的路径
- query-string:参数,发送给http服务器的数据
- anchor:锚(跳转到网页指定锚点位置)
请求方式:GET & POST
GET:从服务器上获取数据
请求参数都显示在浏览器的网址上
提交表单避免使用GET请求
POST:向服务器传送数据
请求参数在请求体中(隐式)
F12 开发者工具 Network
- Request Headers请求头(Cookie)
- Response Headers相应头
- Form Data
- General
