Python爬虫

1.爬虫提纲

2022.02.26Python爬虫 - 图1

1.1 定义

2022.02.26Python爬虫 - 图2

1.2 用途

2022.02.26Python爬虫 - 图3

1.3 分类

2022.02.26Python爬虫 - 图4

2022.02.26Python爬虫 - 图5

1.4 http和https

2022.02.26Python爬虫 - 图6

2022.02.26Python爬虫 - 图7

2022.02.26Python爬虫 - 图8

2022.02.26Python爬虫 - 图9

2022.02.26Python爬虫 - 图10

2022.02.26Python爬虫 - 图11

2022.02.26Python爬虫 - 图12

1.5 robots协议

2022.02.26Python爬虫 - 图13

1.6 浏览器发送https请求

2022.02.26Python爬虫 - 图14

1.7 字符串转换知识

2022.02.26Python爬虫 - 图15

2022.02.26Python爬虫 - 图16

2022.02.26Python爬虫 - 图17

2022.02.26Python爬虫 - 图18

2.request

2.1 发送请求

2022.02.26Python爬虫 - 图19

2.2 为了达到和浏览器一模一样的效果,要发送带header的请求

2022.02.26Python爬虫 - 图20

通常只需要放上去User-Agent

2022.02.26Python爬虫 - 图21

实例

2022.02.26Python爬虫 - 图22

2022.02.26Python爬虫 - 图23

字符串format

2022.02.26Python爬虫 - 图24

2022.02.26Python爬虫 - 图25

2.3 百度贴吧

类实现方法

2022.02.26Python爬虫 - 图26

2022.02.26Python爬虫 - 图27

for循环的写法

2022.02.26Python爬虫 - 图28

2022.02.26Python爬虫 - 图29

面向对象知识

2022.02.26Python爬虫 - 图30

2.4 发送post请求

2022.02.26Python爬虫 - 图31

多了一个data参数

2022.02.26Python爬虫 - 图32

百度翻译:电脑版有sign行不通,可以切换为手机版

2022.02.26Python爬虫 - 图33

根据输入翻译

2022.02.26Python爬虫 - 图34

2022.02.26Python爬虫 - 图35

2.5 使用代理

2022.02.26Python爬虫 - 图36

2022.02.26Python爬虫 - 图37

2022.02.26Python爬虫 - 图38

2022.02.26Python爬虫 - 图39

免费代理

2022.02.26Python爬虫 - 图40

2022.02.26Python爬虫 - 图41

2022.02.26Python爬虫 - 图42

代理示例

2022.02.26Python爬虫 - 图43

2.5 cookie和session

2022.02.26Python爬虫 - 图44

2022.02.26Python爬虫 - 图45

2022.02.26Python爬虫 - 图46

2022.02.26Python爬虫 - 图47

2022.02.26Python爬虫 - 图48

方法1:

2022.02.26Python爬虫 - 图49

方法2:把cookies放到header中

2022.02.26Python爬虫 - 图50

cookie当做参数传进去

2022.02.26Python爬虫 - 图51

2.6 request模块

2022.02.26Python爬虫 - 图52

2022.02.26Python爬虫 - 图53

2022.02.26Python爬虫 - 图54

2022.02.26Python爬虫 - 图55

2022.02.26Python爬虫 - 图56

2022.02.26Python爬虫 - 图57

2022.02.26Python爬虫 - 图58

2022.02.26Python爬虫 - 图59

request保存图片

2022.02.26Python爬虫 - 图60

3.chrome分析post与json

3.1 寻找post地址

2022.02.26Python爬虫 - 图61

人人网实例

2022.02.26Python爬虫 - 图62

2022.02.26Python爬虫 - 图63

2022.02.26Python爬虫 - 图64

3.2 寻找JavaScript

2022.02.26Python爬虫 - 图65

2022.02.26Python爬虫 - 图66

2022.02.26Python爬虫 - 图67

2022.02.26Python爬虫 - 图68

3.3 request小技巧

2022.02.26Python爬虫 - 图69

编码

2022.02.26Python爬虫 - 图70

2022.02.26Python爬虫 - 图71

SSL

2022.02.26Python爬虫 - 图72

超时(函数)

2022.02.26Python爬虫 - 图73

retrying

2022.02.26Python爬虫 - 图74

2022.02.26Python爬虫 - 图75

封装结果

2022.02.26Python爬虫 - 图76

4.json数据处理

2022.02.26Python爬虫 - 图77

2022.02.26Python爬虫 - 图78

4.1 json数据提取

2022.02.26Python爬虫 - 图79

2022.02.26Python爬虫 - 图80

2022.02.26Python爬虫 - 图81

2022.02.26Python爬虫 - 图82

2022.02.26Python爬虫 - 图83