Scrapy

开始使用
项目结构
基本使用
命令行详解

开始使用

创建项目

scrapy startproject xxx

spider创建

scrapy genspider name xxx.com

执行spider

scrapy crawl name

命令行交互

scrapy shell xxx.com

保存item

scrapy crawl quotes -o quotes.json
scrapy crawl quotes -o quotes.jl
scrapy crawl quotes -o quotes.csv
scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/quotes.csv

项目结构

│  items.py  // 保存数据的数据结构<br />    │  middlewares.py   // 定义中间件<br />    │  pipelines.py  // 项目管道<br />    │  settings.py  // 配置信息<br />    │  __init__.py<br />    │  <br />    ├─spiders<br />    │  │  baidu.py  // 主程序<br />    │  │  __init__.py<br />    │  │  <br />    │  └─__pycache__<br />    │          baidu.cpython-39.pyc<br />    │          __init__.cpython-39.pyc
└─

基本使用

定义结构

数据结构在items中定义

保存

数据筛选在pipelines.py

命令行详解

创建新项目 scrapy startproject xxx
生成spider scrapy genspider name xxx.com
查看默认模板 scrapy genspider -l
特定模板生成spider scrapy genspider -t crawl zhihu www.zhihu.com
检查源码 spider check
返回所有项目的名称 spider list
源代码 spider fetch http://www.baidu.com
交互命令 scrapy shell xxx.com
获取当前的配置信息 scrapy settings —get MONGO_URL
当前速度配置 scrapy bench
运行 scrapy crawl quotes（name）

开始使用

创建项目

spider创建

执行spider

命令行交互

保存item

项目结构

基本使用

定义结构

下一页

保存

命令行详解