爬虫:爬取互联网上的信息

    • A 数据挖掘
    • B 数据清洗

    大数据:从何而来

    • 企业产生的用户数据:百度指数
    • 数据平台购买:数据交易所
    • 政府公开的数据:国家局
    • 数据管理咨询公司:麦肯锡
    • 爬去网络数据

    数据挖掘:需要什么信息
    数据清洗:html标签
    通用爬虫:搜索引擎,将互联网的网页下载到本地,形成镜像备份

    • 抓取网页:选取URL(地址),解析DNS得到IP,下载网页并存储,将已抓取URL放入队列循环……
    • 数据存储:存入数据库
    • 预处理:提取文字,中文分词,消除噪声,索引处理,链接关系计算,特殊文件处理……
    • 提供检索服务:展示给用户

    聚焦爬虫:面向特定主题需求

    请求和响应

    • 服务器:前端(网页信息:数据展示),中间层(数据处理),数据库
    • 用户:通过浏览器发送请求(通过网址)
    • 响应:中间层对请求进行解析,在数据库中查询数据,通过前端页面显示给用户

    URL:统一资源定位符(网址)
    scheme://host[:port#]/path/…/[?query-string][#anchor]

    • scheme:协议(http,ftp,https)
    • host:服务器的IP地址或域名(192.168.……)
    • port#:服务器的端口(默认80)
    • path:访问资源的路径
    • query-string:参数,发送给http服务器的数据
    • anchor:锚(跳转到网页指定锚点位置)

    请求方式:GET & POST

    GET:从服务器上获取数据
    请求参数都显示在浏览器的网址上
    提交表单避免使用GET请求
    POST:向服务器传送数据
    请求参数在请求体中(隐式)
    F12 开发者工具 Network

    • Request Headers请求头(Cookie)
    • Response Headers相应头
    • Form Data
    • General