开始使用

创建项目

  1. scrapy startproject xxx

spider创建

  1. scrapy genspider name xxx.com

执行spider

  1. scrapy crawl name

命令行交互

  1. scrapy shell xxx.com

保存item

  1. scrapy crawl quotes -o quotes.json
  2. scrapy crawl quotes -o quotes.jl
  3. scrapy crawl quotes -o quotes.csv
  4. scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/quotes.csv

项目结构

  1. items.py // 保存数据的数据结构<br /> │ middlewares.py // 定义中间件<br /> │ pipelines.py // 项目管道<br /> │ settings.py // 配置信息<br /> │ __init__.py<br /> │ <br /> ├─spiders<br /> │ │ baidu.py // 主程序<br /> │ │ __init__.py<br /> │ │ <br /> │ └─__pycache__<br /> │ baidu.cpython-39.pyc<br /> │ __init__.cpython-39.pyc
  2. └─

基本使用

image.png

定义结构

数据结构在items中定义
image.png
image.png

下一页

image.png

保存

数据筛选在pipelines.py
image.png
image.png
image.png
image.png

命令行详解

  • 创建新项目 scrapy startproject xxx
  • 生成spider scrapy genspider name xxx.com
  • 查看默认模板 scrapy genspider -l
  • 特定模板生成spider scrapy genspider -t crawl zhihu www.zhihu.com
  • 检查源码 spider check
  • 返回所有项目的名称 spider list
  • 源代码 spider fetch http://www.baidu.com
  • 交互命令 scrapy shell xxx.com
  • 获取当前的配置信息 scrapy settings —get MONGO_URL
  • 当前速度配置 scrapy bench
  • 运行 scrapy crawl quotes(name)