译者:OSGeo 中国

链接提取器是对象,其唯一目的是从网页中提取链接( scrapy.http.Response 对象),最终将遵循。

scrapy.linkextractors.LinkExtractor 在Scrapy中可用,但是您可以通过实现一个简单的接口来创建自己的自定义链接提取器来满足您的需要。

每个链接提取器唯一拥有的公共方法是 extract_links ,接收 Response 对象并返回 scrapy.link.Link 物体。链接提取器将被实例化一次及其 extract_links 方法多次调用,并使用不同的响应提取要跟踪的链接。

链接提取器用于 CrawlSpider 类(在scrappy中可用),通过一组规则,但您也可以在spider中使用它,即使您不从 CrawlSpider 因为它的目的很简单:提取链接。

内置链接提取程序参考

scrapy.linkextractors 模块。

默认的链接提取程序是 LinkExtractor ,与 LxmlLinkExtractor ::

  1. from scrapy.linkextractors import LinkExtractor

以前的Scrapy版本中还有其他的链接提取器类,但现在已经不推荐使用了。

LxmlLinkExtractor

  1. class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), restrict_css=(), tags=('a', 'area'), attrs=('href', ), canonicalize=False, unique=True, process_value=None, strip=True)

LXMLlinkextractor是推荐的带有便捷过滤选项的链接提取程序。它是使用LXML的健壮的HTMLParser实现的。

| 参数: |

  • allow (a regular expression (or _list of)) — (绝对)URL必须匹配才能提取的单个正则表达式(或正则表达式列表)。如果没有给定(或为空),它将匹配所有链接。
  • deny (a regular expression (or _list of)) — (绝对)URL必须匹配的单个正则表达式(或正则表达式列表)才能排除(即不提取)。它优先于 allow 参数。如果未给定(或为空),则不会排除任何链接。
  • allow_domains (str or list) — 包含用于提取链接的域的单个值或字符串列表。
  • deny_domains (str or list) — 包含域的单个值或字符串列表,这些域不会被视为提取链接的域。
  • deny_extensions (list) — 包含在提取链接时应忽略的扩展名的单个值或字符串列表。如果没有给出,它将默认为 IGNORED_EXTENSIONS 在中定义的列表 scrapy.linkextractors 包。
  • restrict_xpaths (str or list) — 是一个xpath(或xpath的列表),它定义响应中应该从中提取链接的区域。如果给定,则只扫描由这些xpath选择的文本中的链接。见下面的例子。
  • restrict_css (str or list) — 一个CSS选择器(或选择器列表),它定义响应中应该从中提取链接的区域。行为与 restrict_xpaths .
  • restrict_text (a regular expression (or _list of)) — 链接文本必须匹配才能提取的单个正则表达式(或正则表达式列表)。如果没有给定(或为空),它将匹配所有链接。如果给出了一个正则表达式列表,那么如果链接与至少一个匹配,则将提取该链接。
  • tags (str or list) — 提取链接时要考虑的标记或标记列表。默认为 ('a', 'area') .
  • attrs (list) — 在查找要提取的链接时应考虑的属性或属性列表(仅适用于在 tags 参数)。默认为 ('href',)
  • canonicalize (boolean) — 规范化每个提取的URL(使用w3lib.url.canonicalize_url)。默认为 False . 请注意,规范化URL用于重复检查;它可以更改服务器端可见的URL,因此对于使用规范化URL和原始URL的请求,响应可能不同。如果您使用linkextractor跟踪链接,那么保持默认链接更为可靠。 canonicalize=False .
  • unique (boolean) — 是否对提取的链接应用重复筛选。
  • process_value (callable) — 一种函数,接收从扫描的标记和属性中提取的每个值,并能修改该值并返回一个新值,或返回 None 完全忽略链接。如果没有给出, process_value 默认为 lambda x: x . …highlight::html例如,要从此代码中提取链接,请执行以下操作::link text.。highlight::python您可以在 process_value ::def process_value(value):m=re.search(“docs_javascript:gotopage(’(.*?)’”,value)如果m:返回m.group(1)
  • strip (boolean) — 是否从提取的属性中删除空白。根据HTML5标准,必须从 href 属性 <a><area> 还有许多其他元素, src 属性 <img><iframe> 元素等,因此linkextractor默认情况下会删除空格字符。集合 strip=False 关闭它(例如,如果从允许前导/尾随空格的元素或属性中提取URL)。 | | | —- |