一 介绍

Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:

  • 更方便地控制爬虫运行
  • 更直观地查看爬虫状态
  • 更实时地查看爬取结果
  • 更简单地实现项目部署
  • 更统一地实现主机管理
  • 更轻松地编写爬虫代码(几乎没用,感觉比较鸡肋)

Scrapyd是一个用来部署和运行Scrapy项目的应用,由Scrapy的开发者开发。其可以通过一个简单的Json API来部署(上传)或者控制你的项目。


https://docs.gerapy.com/en/latest/


二 使用Gerapy

安装Gerapy

在新的python项目目录下

  1. pip install gerapy

如果下载报错:
image.png
尝试升级pip

  1. python -m pip install --upgrade pip

如果使用以上命令升级报错
image.png
则使一下命令:

  1. easy_install -U pip

检查是否安装成功

  1. gerapy

image.png

初始化Gerapy

  1. gerapy init

会在当前目录下生成一个名字为 gerapy 的文件夹,接着进入该文件夹,可以看到有一个 projects 文件夹
image.png

初始化数据库

要cd 到gerapy目录

  1. cd gerapy
  2. gerapy migrate

image.png

运行Gerapy服务

  1. gerapy runserver

创建超级用户

  1. gerapy createsuperuser

image.png
访问:http://127.0.0.1:8000/
image.png
image.png
此时还没有配置项目,接下来先下载Scrapyd

三 使用Scrapyd

下载Scrapyd

  1. pip install scrapyd

image.png

下载scrapyd-client

  1. pip install scrapyd-client

image.png

启动scrapyd

  1. scrapyd

image.png
访问:http://127.0.0.1:6800/
image.png

四 创建scrapy爬虫

下载scrapy

  1. pip install scrapy

进入gerapy目录下面的projects目录,创建scrapy爬虫(总之爬虫项目1需要放在该目录下,才能被识别)

  1. scrapy startproject ehsy

image.png

  1. cd ehsy
  2. scrapy genspider ehsy_scrapy https://www.zkh360.com/

五 修改scrapy.cfg文件

之所以修改,是为了让建立scrapy与scrapyd的关系
image.png

六 主机管理

新建项目
image.png
image.png
image.png

七 项目管理

编辑里面可修改配置以及代码信息
image.png
部署项目
image.png
image.png
如果项目没有问题,可以点击部署进行打包和部署,在部署之前要打包项目(打包成一个egg文件),可以部署到多台主机。
image.png
点击部署
image.png
image.png

八 运行项目

image.png
image.png
image.png
此时发现后台报错:
image.png
下载pywin32

  1. pip install pywin32

然后重启scrapyd和Gerapy
运行成功:
image.png

注意

更改scrapy代码中,需要重下编译部署,否则还是未修改前的
image.png
然后运行项目
image.png
image.png