Scrapy 框架常用配置文件配置

scrapy中的有很多配置，说一下比较常用的几个：

CONCURRENT_ITEMS：项目管道最大并发数
CONCURRENT_REQUESTS： scrapy下载器最大并发数
DOWNLOAD_DELAY：访问同一个网站的间隔时间，单位秒。一般默认为0.5_DOWNLOAD_DELAY到1.5 _DOWNLOAD_DELAY之间的随机值。也可以设置为固定值，由
RANDOMIZE_DOWNLOAD_DELAY指定是否固定，默认True随机。这里的同一个网站可以是域名也可以是IP，由
CONCURRENT_REQUESTS_PER_IP的值决定。
CONCURRENT_REQUESTS_PER_DOMAIN：对单个域名的最大并发
CONCURRENT_REQUESTS_PER_IP：对单个IP的最大并发，如果值不为0，则CONCURRENT_REQUESTS_PER_DOMAIN参数被忽略，而且DOWNLOAD_DELAY这个参数的同一网站指的是IP
DEFAULT_ITEM_CLASS：执行scrapy shell 命令的默认item类，默认scrapy.item.Item
DEPTH_LIMIT：爬取的最大深度
DEPTH_PRIORITY：正值为广度优先(BFO)，负值为深度优先(DFO)，计算公式：request.priority = request.priority - ( depth * DEPTH_PRIORITY )
COOKIES_ENABLED：是否启用cookie中间件，也就是自动cookie管理
COOKIES_DEBUG：将请求cookie和响应包含Set-Cookie的写入日志
DOWNLOADER_MIDDLEWARE：下载器中间件和优先级的字典
DEFAULT_REQUEST_HEADERS：用于Scrapy HTTP请求的默认标头
DUPEFILTER_CLASS：去重的类，可以改成使用布隆过滤器，而不使用默认的
LOG_ENABLED：是否启用日志
LOG_FILE：日志文件路径，默认为None
LOG_FORMAT：日志格式化表达式
LOG_DATEFORMAT：LOG_FORMAT中的时间格式化表达式
LOG_LEVEL：最低日志级别，默认DEBUG，可用：CRITICAL,
ERROR, WARNING, INFO, DEBUG
LOG_STDOUT：是否将所有标准输出（和错误）将被重定向到日志，例如print也会被记录在日志
LOG_SHORT_NAMES：如果为True，则日志将仅包含根路径;如果设置为False，则显示负责日志输出的组件
LOGSTATS_INTERVAL：每次统计记录打印输出之间的间隔
MEMDEBUG_ENABLED：是否启用内存调试
REDIRECT_MAX_TIMES：定义可以重定向请求的最长时间
REDIRECT_PRIORITY_ADJUST：调整重定向请求的优先级，为正值时优先级高
RETRY_PRIORITY_ADJUST：调整重试请求的优先级
ROBOTSTXT_OBEY：是否遵循robot协议
SCRAPER_SLOT_MAX_ACTIVE_SIZE：正在处理响应数据的软限制（以字节为单位），如果所有正在处理的响应的大小总和高于此值，Scrapy不会处理新的请求。
SPIDER_MIDDLEWARES：蜘蛛中间件
USER_AGENT：默认使用的User-Agent
IMAGES_STORE = “./imgFiles” 图片下载的路径