1、什么是爬虫
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
2、爬虫在使用场景中的分类
- 通用爬虫
- 抓取系统重要组成部分,抓取的是互联网上一整张页面的数据
- 聚焦爬虫
- 建立在通用爬虫之上,抓取的是页面特定的局部内容
4、反反爬策略
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中的反爬机制,从而获取网站的数据
5、robots.txt 协议
6、HTTP/HTTPS 协议
http : 服务器和客户端进行指定的一种通信协议
常用请求头信息 | |
---|---|
user-agent | 请求载体的身份标识, 用谷歌打开就是谷歌的身份,用火狐就是火狐的身份 |
connection | 请求完毕后,是断开连接还是继续保持连接 |
常用响应头信息 | |
Content-type | 服务器响应回客户端的数据类型 【字符串,json,html】 |
https : 标识安全的HTTP协议,安全的超文本传输协议 【数据加密后的】
加密方式:
- json 就是一个数据格式
- json 是轻量级的文本数据交换格式
- json 独立于语言
- json 具有自我描述性,更易理解
- json 比xml 更小,更快,更易解析
8、python中json标准库的作用
使用json字符串生成python对象 (dump)
由python对象【字典】格式化成为json字符串(dump)
python转到json格式,在数据类型上会有变化:
python | json |
---|---|
dict | object |
list,tuple | array |
str | string |
int,float,int .. | number |
True | true |
False | false |
None | null |
json模块的方法
方法 | 功能 |
---|---|
json.dump(obj,fp) | 将python数据类型转换并保存到json格式的文件内 |
json.dumps(obj) | 将python数据类型转换为json格式的字符串 |
json.load(fp) | 从json格式的文件中读取数据并转换为python的类型 |
json.loads(s) | 将json格式的字符串转换为python类型 |