爬虫和反爬虫 - 爬虫反爬虫理论/scrapy源码分析 - 《Python》

概念
爬虫和反爬虫对抗过程
Scrapy架构分析
requests/response
- requests
- response

概念

爬虫
按照一定的策略对网站数据进行爬取
反爬虫
防止爬虫对网站进行数据爬虫

反爬虫的目的
初级爬虫 - 简单粗暴，容易把网站弄卡
数据保护
失控的爬虫 - 爬虫已经没有实际用途了，但是还在不断对网站进行访问
商业竞争对手
误伤
如果学校里有人用内网爬虫，被网站识别为爬虫并且强力禁止ip，那么整个学校内网就访问不了这个网站，网站就会从此丢失掉相当一部分人流量
成本
反爬虫投入的成本
拦截
拦截程度越高，误伤率越高

爬虫和反爬虫对抗过程

Scrapy架构分析

requests/response

requests

callback 回调函数
method 请求类型
meta 请求参数 (json)
headers 请求头
body
cookies 这个scrapy会自动处理
errback 错误回调函数