爬虫-0630-我要自学网

浏览 153 扫码分享 2023-11-25 12:46:38

爬虫：爬取互联网上的信息

A 数据挖掘
B 数据清洗

大数据：从何而来

企业产生的用户数据：百度指数
数据平台购买：数据交易所
政府公开的数据：国家局
数据管理咨询公司：麦肯锡
爬去网络数据

数据挖掘：需要什么信息
数据清洗：html标签
通用爬虫：搜索引擎，将互联网的网页下载到本地，形成镜像备份

抓取网页：选取URL（地址），解析DNS得到IP，下载网页并存储，将已抓取URL放入队列循环……
数据存储：存入数据库
预处理：提取文字，中文分词，消除噪声，索引处理，链接关系计算，特殊文件处理……
提供检索服务：展示给用户

聚焦爬虫：面向特定主题需求

请求和响应

服务器：前端（网页信息：数据展示），中间层（数据处理），数据库
用户：通过浏览器发送请求（通过网址）
响应：中间层对请求进行解析，在数据库中查询数据，通过前端页面显示给用户

URL：统一资源定位符（网址）
scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：协议（http，ftp，https）
host：服务器的IP地址或域名（192.168.……）
port#：服务器的端口（默认80）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页指定锚点位置）

请求方式：GET & POST

GET：从服务器上获取数据
请求参数都显示在浏览器的网址上
提交表单避免使用GET请求
POST：向服务器传送数据
请求参数在请求体中（隐式）
F12 开发者工具 Network

Request Headers请求头（Cookie）
Response Headers相应头
Form Data
General

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录