一 介绍
Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:
- 更方便地控制爬虫运行
- 更直观地查看爬虫状态
- 更实时地查看爬取结果
- 更简单地实现项目部署
- 更统一地实现主机管理
- 更轻松地编写爬虫代码(几乎没用,感觉比较鸡肋)
Scrapyd是一个用来部署和运行Scrapy项目的应用,由Scrapy的开发者开发。其可以通过一个简单的Json API来部署(上传)或者控制你的项目。
https://docs.gerapy.com/en/latest/
二 使用Gerapy
安装Gerapy
在新的python项目目录下
pip install gerapy
如果下载报错:
尝试升级pip
python -m pip install --upgrade pip
如果使用以上命令升级报错
则使一下命令:
easy_install -U pip
检查是否安装成功
gerapy
初始化Gerapy
gerapy init
会在当前目录下生成一个名字为 gerapy 的文件夹,接着进入该文件夹,可以看到有一个 projects 文件夹
初始化数据库
要cd 到gerapy目录
cd gerapy
gerapy migrate
运行Gerapy服务
gerapy runserver
创建超级用户
gerapy createsuperuser
访问:http://127.0.0.1:8000/
此时还没有配置项目,接下来先下载Scrapyd
三 使用Scrapyd
下载Scrapyd
pip install scrapyd
下载scrapyd-client
pip install scrapyd-client
启动scrapyd
scrapyd
四 创建scrapy爬虫
下载scrapy
pip install scrapy
进入gerapy目录下面的projects目录,创建scrapy爬虫(总之爬虫项目1需要放在该目录下,才能被识别)
scrapy startproject ehsy
cd ehsy
scrapy genspider ehsy_scrapy https://www.zkh360.com/
五 修改scrapy.cfg文件
六 主机管理
七 项目管理
编辑里面可修改配置以及代码信息
部署项目
如果项目没有问题,可以点击部署进行打包和部署,在部署之前要打包项目(打包成一个egg文件),可以部署到多台主机。
点击部署
八 运行项目
此时发现后台报错:
下载pywin32
pip install pywin32
注意
更改scrapy代码中,需要重下编译部署,否则还是未修改前的
然后运行项目