1、什么是爬虫

通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程

2、爬虫在使用场景中的分类

  • 通用爬虫
    • 抓取系统重要组成部分,抓取的是互联网上一整张页面的数据


  • 聚焦爬虫
    • 建立在通用爬虫之上,抓取的是页面特定的局部内容


  • 增量式爬虫
    • 检测网站中数据更新的情况,只会抓取网站中最新更新的数据

      3、反爬机制

      门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取

4、反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中的反爬机制,从而获取网站的数据

5、robots.txt 协议

君子协议。规定了网站中哪些数据可以爬取,哪些数据不可以爬取

6、HTTP/HTTPS 协议

http : 服务器和客户端进行指定的一种通信协议

常用请求头信息
user-agent 请求载体的身份标识, 用谷歌打开就是谷歌的身份,用火狐就是火狐的身份
connection 请求完毕后,是断开连接还是继续保持连接
常用响应头信息
Content-type 服务器响应回客户端的数据类型 【字符串,json,html】

https : 标识安全的HTTP协议,安全的超文本传输协议 【数据加密后的】
加密方式:

  1. 对称密钥加密
  2. 非对称密钥加密
  3. 证数密钥加密 【https 使用的是】

    7、json库

  • json 就是一个数据格式
  • json 是轻量级的文本数据交换格式
  • json 独立于语言
  • json 具有自我描述性,更易理解
  • json 比xml 更小,更快,更易解析

    8、python中json标准库的作用

    使用json字符串生成python对象 (dump)
    由python对象【字典】格式化成为json字符串(dump)
    python转到json格式,在数据类型上会有变化:
python json
dict object
list,tuple array
str string
int,float,int .. number
True true
False false
None null

json模块的方法

方法 功能
json.dump(obj,fp) 将python数据类型转换并保存到json格式的文件内
json.dumps(obj) 将python数据类型转换为json格式的字符串
json.load(fp) 从json格式的文件中读取数据并转换为python的类型
json.loads(s) 将json格式的字符串转换为python类型