简介

css选择器和xpath选择器都属于lxml,lxml是c语言开发的,最接近底层的东西运行效率很高,所以css选择器也可以学习一下,它的选择器语法和我们前端的选择器语法是如出一辙的,对于学过css的人来说,这块学习起来基本就是0成本,但是xpath应该作为首选,在scrapy底层中也基本上是将css选择器转换成xpath选择器

案例

这边调用的是css方法

  1. import scrapy
  2. class BlogspiderSpider(scrapy.Spider):
  3. name = 'blogSpider'
  4. allowed_domains = ['news.cnblogs.com']
  5. start_urls = ['http://news.cnblogs.com/']
  6. def parse(self, response):
  7. url = response.css("div#news_list h2 a::attr(href)").extract()[0]
  8. print(url)
  9. pass

语法

image.png
image.png
image.png