本文档包含您需要了解的有关Scrapy的所有信息。

获得帮助

遇到麻烦?我们想帮忙!

第一步

Scrapy初探

  1. 了解Scrapy是什么以及它如何帮助您。

安装指南

在您的计算机上安装Scrapy。

Scrapy教程

写下您的第一个Scrapy项目。

例子

通过使用预设的Scrapy项目了解更多信息。

基本概念

命令行工具

学习用于管理您的Scrapy项目的命令行工具。

爬虫(Spiders)

编写规则以抓取您的网站。

选择器(Selectors)

使用XPath从网页中提取数据。

Scrapy shell

在交互式环境中测试您的提取代码。

Items

定义您要爬取的数据。

Item Loaders(加载器)

使用提取的数据填充您的Items。

Item Pipeline(管道)

后期处理并存储您已爬取的数据。

原料输出

使用不同的格式和存储输出您的已爬取的数据。

请求和响应

理解用于表示HTTP请求和响应的类。

链接提取器

方便的类,用于从页面中提取关联链接。

设置

学习如何配置Scrapy并查看所有[可用设置](https://docs.scrapy.org/en/latest/topics/settings.html#topics-settings-ref)。

异常

查看所有可用的异常情况及其含义。

内置服务

日志记录(Logging)

学习如何在Scrapy上使用Python的内置日志记录。

收集统计信息

收集有关您正在爬取的爬虫的统计信息。

发送电子邮件

发生特定事件时发送电子邮件通知。

Telnet控制台

使用内置的Python控制台检查正在运行的爬虫。

网络服务

使用Web服务监视和控制爬虫。

解决具体问题

经常问的问题

获得最常见问题的答案。

调试爬虫

学习如何调试scrapy爬虫的常见问题。

爬虫合同

学习如何使用合同来测试您的爬虫。

常见做法

熟悉一些Scrapy的常见做法。

通用爬虫

Tune Scrapy可以并行抓取大量域名。

使用浏览器的开发者工具进行抓取

学习如何使用浏览器的开发者工具。

调试内存溢出

学习如何查找和清除爬虫中的内存溢出。

下载和处理文件及图像

下载与已爬取Items关联的文件和或图像。

部署爬虫

部署Scrapy爬虫并在远程服务器中运行它们。

AutoThrottle扩展

根据负载动态调整爬虫速率。

标杆管理

检查Scrapy如何在您的硬件上执行。

Jobs:暂停和恢复抓取

学习如何暂停和恢复大型爬虫的抓取。

扩展Scrapy

架构概述

了解Scrapy架构。

下载中间件

自定义页面的请求和下载。

爬虫中间件

自定义您的爬虫的输入和输出。

扩展

使用您的自定义功能扩展Scrapy

核心API

在扩展和中间件上使用它来扩展Scrapy功能

信号

查看所有可用信号以及如何使用它们。

Item导出

快速将您已爬取的items导出到文件(XML,CSV等)。

其他

发行说明

查看最近Scrapy版本中的变化。

为Scrapy做贡献

学习如何为Scrapy项目做出贡献。

版本控制和API稳定性

了解Scrapy版本控制和API稳定性。

下一个