开始使用
创建项目
scrapy startproject xxx
spider创建
scrapy genspider name xxx.com
执行spider
scrapy crawl name
命令行交互
scrapy shell xxx.com
保存item
scrapy crawl quotes -o quotes.jsonscrapy crawl quotes -o quotes.jlscrapy crawl quotes -o quotes.csvscrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/quotes.csv
项目结构
│ items.py // 保存数据的数据结构<br /> │ middlewares.py // 定义中间件<br /> │ pipelines.py // 项目管道<br /> │ settings.py // 配置信息<br /> │ __init__.py<br /> │ <br /> ├─spiders<br /> │ │ baidu.py // 主程序<br /> │ │ __init__.py<br /> │ │ <br /> │ └─__pycache__<br /> │ baidu.cpython-39.pyc<br /> │ __init__.cpython-39.pyc└─
基本使用
定义结构
数据结构在items中定义

下一页
保存
数据筛选在pipelines.py



命令行详解
- 创建新项目 scrapy startproject xxx
- 生成spider scrapy genspider name xxx.com
- 查看默认模板 scrapy genspider -l
- 特定模板生成spider scrapy genspider -t crawl zhihu www.zhihu.com
- 检查源码 spider check
- 返回所有项目的名称 spider list
- 源代码 spider fetch http://www.baidu.com
- 交互命令 scrapy shell xxx.com
- 获取当前的配置信息 scrapy settings —get MONGO_URL
- 当前速度配置 scrapy bench
- 运行 scrapy crawl quotes(name)