一、Scrapy简介
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。
Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
二、Scrapy 安装
pip install scrapy pillow twisted pywin32 -y
# or
conda install scrapy pillow twisted pywin32 -y
如果直接通过 pip
安装报错, 通常采用下载 .whl
文件的方式进行安装: Unofficial Windows Binaries for Python Extension Packages
在安装 Scrapy 之前,需要先下载并安装一下依赖(Twisted和pywin32), 比如:
pip install Twisted-18.9.0-cp37-cp37m-win_amd64.whl
pip install pywin32-224-cp37-cp37m-win_amd64.whl
pip install Scrapy-1.5.1-py2.py3-none-any.whl
安装成功, 控制台输入 scrapy
能看到输出就说明安装成功了。
三、创建 Scrapy 项目
使用过 scrapy 创建一个名为 spiderTest
的项目
$ scrapy startproject spiderTest
四、Scrapy 项目结构
tutorial/
scrapy.cfg # 项目的配置文件
tutorial/ # 用来放你py代码的地方
__init__.py
items.py # 用来定义你抓取内容的字段
middlewares.py # 中间器
pipelines.py # 管道文件
settings.py # 设置
spiders/ # 放爬虫文件的文件夹
__init__.py
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。
Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。