概念

爬虫
按照一定的策略对网站数据进行爬取
反爬虫
防止爬虫对网站进行数据爬虫

反爬虫的目的
初级爬虫 - 简单粗暴,容易把网站弄卡
数据保护
失控的爬虫 - 爬虫已经没有实际用途了,但是还在不断对网站进行访问
商业竞争对手
误伤
如果学校里有人用内网爬虫,被网站识别为爬虫并且强力禁止ip,那么整个学校内网就访问不了这个网站,网站就会从此丢失掉相当一部分人流量
成本
反爬虫投入的成本
拦截
拦截程度越高,误伤率越高

爬虫和反爬虫对抗过程

image.png

Scrapy架构分析

image.png

requests/response

requests

callback 回调函数
method 请求类型
meta 请求参数 (json)
headers 请求头
body
cookies 这个scrapy会自动处理
errback 错误回调函数

response