title: scrapy分布式爬虫date: 2018-07-12 21:03:43
tags: spider

分布式

  1. request队列集中管理
  2. 去重集中管理

采用内存数据库redis对其进行处理。

redis

安装与启动

windows:

下载地址:https://github.com/MSOpenTech/redis/releases

不设置环境变量,在cmd中运行:

  1. $ redis-server.exe redis.windows.conf

设置好环境变量,在cmd中输入:

$ redis-server.exe

新开一个cmd,输入:

$ redis-cli.exe -h 127.0.0.1 -p 6379

之后即可输入指令。

redis列表命令

指令 解释 全称
lpush 左侧插入 left push
rpush 右侧插入 right push
blpop 左侧删除 block left pop
brpop 右侧删除 block right pop
lpop

lpush:类似于栈,后进先出。从左边进。

rpush:在右侧插入。

lpush:从左往右遍历打印列表内容。

blpop: