Scrapy 框架常用配置文件配置

    scrapy中的有很多配置,说一下比较常用的几个:

    • CONCURRENT_ITEMS:项目管道最大并发数
    • CONCURRENT_REQUESTS: scrapy下载器最大并发数
    • DOWNLOAD_DELAY:访问同一个网站的间隔时间,单位秒。一般默认为0.5_DOWNLOAD_DELAY到1.5 _DOWNLOAD_DELAY之间的随机值。也可以设置为固定值,由
    • RANDOMIZE_DOWNLOAD_DELAY指定是否固定,默认True随机。这里的同一个网站可以是域名也可以是IP,由
    • CONCURRENT_REQUESTS_PER_IP的值决定。
    • CONCURRENT_REQUESTS_PER_DOMAIN:对单个域名的最大并发
    • CONCURRENT_REQUESTS_PER_IP:对单个IP的最大并发,如果值不为0,则CONCURRENT_REQUESTS_PER_DOMAIN参数被忽略,而且DOWNLOAD_DELAY这个参数的同一网站指的是IP
    • DEFAULT_ITEM_CLASS:执行scrapy shell 命令的默认item类,默认scrapy.item.Item
    • DEPTH_LIMIT:爬取的最大深度
    • DEPTH_PRIORITY:正值为广度优先(BFO),负值为深度优先(DFO),计算公式:request.priority = request.priority - ( depth * DEPTH_PRIORITY )
    • COOKIES_ENABLED: 是否启用cookie中间件,也就是自动cookie管理
    • COOKIES_DEBUG:将请求cookie和响应包含Set-Cookie的写入日志
    • DOWNLOADER_MIDDLEWARE:下载器中间件和优先级的字典
    • DEFAULT_REQUEST_HEADERS:用于Scrapy HTTP请求的默认标头
    • DUPEFILTER_CLASS:去重的类,可以改成使用布隆过滤器,而不使用默认的
    • LOG_ENABLED:是否启用日志
    • LOG_FILE:日志文件路径,默认为None
    • LOG_FORMAT:日志格式化表达式
    • LOG_DATEFORMAT:LOG_FORMAT中的时间格式化表达式
    • LOG_LEVEL:最低日志级别,默认DEBUG,可用:CRITICAL,
    • ERROR, WARNING, INFO, DEBUG
    • LOG_STDOUT:是否将所有标准输出(和错误)将被重定向到日志,例如print也会被记录在日志
    • LOG_SHORT_NAMES:如果为True,则日志将仅包含根路径;如果设置为False,则显示负责日志输出的组件
    • LOGSTATS_INTERVAL:每次统计记录打印输出之间的间隔
    • MEMDEBUG_ENABLED:是否启用内存调试
    • REDIRECT_MAX_TIMES:定义可以重定向请求的最长时间
    • REDIRECT_PRIORITY_ADJUST:调整重定向请求的优先级,为正值时优先级高
    • RETRY_PRIORITY_ADJUST:调整重试请求的优先级
    • ROBOTSTXT_OBEY:是否遵循robot协议
    • SCRAPER_SLOT_MAX_ACTIVE_SIZE:正在处理响应数据的软限制(以字节为单位),如果所有正在处理的响应的大小总和高于此值,Scrapy不会处理新的请求。
    • SPIDER_MIDDLEWARES:蜘蛛中间件
    • USER_AGENT:默认使用的User-Agent
    • IMAGES_STORE = “./imgFiles” 图片下载的路径