译者:OSGeo 中国

Scrapy附带一个内置的telnet控制台,用于检查和控制Scrapy运行过程。telnet控制台只是一个运行在scrappy进程内部的常规python shell,因此您可以从中做任何事情。

telnet控制台是一个 built-in Scrapy extension 它在默认情况下是启用的,但如果需要,您也可以禁用它。有关扩展本身的更多信息,请参阅 Telnet控制台扩展 .

警告

通过公共网络使用telnet控制台是不安全的,因为telnet不提供任何传输层安全性。拥有用户名/密码验证不会改变这一点。

预期用途是本地连接到正在运行的Scrapy Spider(Spider进程和Telnet客户端在同一台计算机上)或通过安全连接(VPN、SSH通道)进行连接。请避免在不安全的连接上使用telnet控制台,或使用 TELNETCONSOLE_ENABLED 选择权。

如何访问telnet控制台

telnet控制台侦听中定义的TCP端口 TELNETCONSOLE_PORT 设置,默认为 6023 . 要访问控制台,您需要键入:

  1. telnet localhost 6023
  2. Trying localhost...
  3. Connected to localhost.
  4. Escape character is '^]'.
  5. Username:
  6. Password:
  7. >>>

默认用户名为 scrapy 密码是自动生成的。自动生成的密码可以在垃圾日志中看到,如下所示:

  1. 2018-10-16 14:35:21 [scrapy.extensions.telnet] INFO: Telnet Password: 16f92501e8a59326

默认用户名和密码可以被设置覆盖 TELNETCONSOLE_USERNAMETELNETCONSOLE_PASSWORD .

警告

用户名和密码仅提供有限的保护,因为telnet不使用安全传输-默认情况下,即使设置了用户名和密码,通信也不会加密。

您需要在Windows和大多数Linux发行版中默认安装的telnet程序。

telnet控制台中的可用变量

telnet控制台就像一个运行在scrappy进程内部的常规python shell,所以您可以从中做任何事情,包括导入新模块等。

但是,telnet控制台附带一些为方便起见而定义的默认变量:

捷径 描述
crawler 残废的爬虫( scrapy.crawler.Crawler 对象)
engine crawler.engine属性
spider 主动 Spider
slot 发动机槽
extensions 扩展管理器(crawler.extensions属性)
stats stats收集器(crawler.stats属性)
settings Scrapy设置对象(crawler.settings属性)
est 打印发动机状态报告
prefs 内存调试(请参见 调试内存泄漏
p 到的快捷方式 pprint.pprint 功能
hpy 内存调试(请参见 调试内存泄漏

telnet控制台使用示例

以下是使用telnet控制台可以执行的一些示例任务:

查看发动机状态

你可以使用 est() scrapy引擎使用telnet控制台快速显示其状态的方法:

  1. telnet localhost 6023
  2. >>> est()
  3. Execution engine status
  4. time()-engine.start_time : 8.62972998619
  5. engine.has_capacity() : False
  6. len(engine.downloader.active) : 16
  7. engine.scraper.is_idle() : False
  8. engine.spider.name : followall
  9. engine.spider_is_idle(engine.spider) : False
  10. engine.slot.closing : False
  11. len(engine.slot.inprogress) : 16
  12. len(engine.slot.scheduler.dqs or []) : 0
  13. len(engine.slot.scheduler.mqs) : 92
  14. len(engine.scraper.slot.queue) : 0
  15. len(engine.scraper.slot.active) : 0
  16. engine.scraper.slot.active_size : 0
  17. engine.scraper.slot.itemproc_size : 0
  18. engine.scraper.slot.needs_backout() : False

暂停、恢复和停止 Scrapy 发动机

暂停:

  1. telnet localhost 6023
  2. >>> engine.pause()
  3. >>>

恢复:

  1. telnet localhost 6023
  2. >>> engine.unpause()
  3. >>>

停止::

  1. telnet localhost 6023
  2. >>> engine.stop()
  3. Connection closed by foreign host.

Telnet控制台信号

  1. scrapy.extensions.telnet.update_telnet_vars(telnet_vars)

在telnet控制台打开之前发送。您可以连接到这个信号来添加、删除或更新telnet本地命名空间中可用的变量。为此,需要更新 telnet_vars 听写你的处理程序。

参数: telnet_vars (dict) — telnet变量的dict

远程登录设置

以下是控制telnet控制台行为的设置:

TELNETCONSOLE_PORT

违约: [6023, 6073]

用于telnet控制台的端口范围。如果设置为 None0 ,使用动态分配的端口。

TELNETCONSOLE_HOST

违约: '127.0.0.1'

telnet控制台应该监听的接口

TELNETCONSOLE_USERNAME

违约: 'scrapy'

用于telnet控制台的用户名

TELNETCONSOLE_PASSWORD

违约: None

telnet控制台使用的密码,默认行为是让它自动生成。