1、下载文件和图片

爬取汽车之家:https://www.autohome.com.cn/65/#levelsource=000000000_0&pvareaid=101594

普通下载方式,是同步而非异步

  1. import scrapy
  2. class CarSpider(scrapy.Spider):
  3. name = 'car'
  4. allowed_domains = ['autohome.com.cn']
  5. start_urls = ['https://car.autohome.com.cn/photolist/series/41964/5143891.html#pvareaid=3454450']
  6. def parse(self, response):
  7. uli = response.xpath("//ul[@id='imgList']/li")
  8. next_url = 'https://car.autohome.com.cn/' + response.xpath("//div[@class='page']/a[@class='page-item-next']/@href").extract_first()
  9. print(uli)
  10. for li in uli:
  11. print(li)
  12. item = {}
  13. src = li.xpath("./a/img/@src").extract_first()
  14. if src[-3:] == 'gif':
  15. src = li.xpath("./a/img/@src2").extract_first()
  16. item['src'] = "http:" + src
  17. yield item
  18. if next_url:
  19. yield scrapy.Request(
  20. url=next_url,
  21. callback=self.parse
  22. )

scrapy为下载items中包含的文件提供了一个可重用的items pipelines,这些pipeline有些共同的方法和结构,一般来说你会使用Files Pipline或者Images Pipeline;

2、为什么要选择使用scrapy内置的下载文件的方法

  • 1:避免重新下载最近已经下载过的数据
  • 2:可以方便的指定文件存储的路径
  • 3:可以将下载的图片转换成通用的格式。如:png,jpg
  • 4:可以方便的生成缩略图
  • 5:可以方便的检测图片的宽和高,确保他们满足最小限制
  • 6:异步下载,效率非常高

3、下载图片的 Images Pipeline

3.1 使用images pipeline下载文件步骤

  • 在items文件中定义两个属性,分别为image_urls以及imagesimage_urls是用来存储需要下载的文件的url链接,需要给一个列表;
  • 在爬虫文件中导入items中的类,实例化item,保存image_url的值,爬虫内的业务逻辑不变;
  • 当文件下载完成后,会把文件下载的相关信息自动存储到item的images属性中。如下载路径、下载的url和图片校验码等
  • 启动pipeline:在ITEM_PIPELINES中添加scrapy.pipelines.images.ImagesPipeline:1,将之前的pipeline注释掉(不注释也会执行)
  • 保存图片,在settings中配置IMAGES_STORE = ‘文件保存路径’,图片url传到pipeline后会自动下载,文件会自动命名,不需要传入文件名;

异步下载汽车之家的图片

  1. # newcar.py 爬虫文件
  2. import scrapy
  3. from pic.items import PicItem
  4. class NewcarSpider(scrapy.Spider):
  5. name = 'newcar'
  6. allowed_domains = ['autohome.com.cn']
  7. start_urls = ['https://car.autohome.com.cn/photolist/series/41964/5143891.html#pvareaid=3454450']
  8. def parse(self, response):
  9. uli = response.xpath("//ul[@id='imgList']/li")
  10. next_url = response.xpath("//div[@class='page']/a[@class='page-item-next']/@href").extract_first()
  11. print(uli)
  12. for li in uli:
  13. print(li)
  14. item = PicItem()
  15. src = li.xpath("./a/img/@src").extract_first()
  16. if src[-3:] == 'gif':
  17. src = li.xpath("./a/img/@src2").extract_first()
  18. item['image_urls'] = ["http:" + src]
  19. yield item
  20. if next_url:
  21. yield scrapy.Request(
  22. url='https://car.autohome.com.cn/' + next_url,
  23. callback=self.parse
  24. )
# items文件
import scrapy


class PicItem(scrapy.Item):
    # define the fields for your item here like:
    image_urls = scrapy.Field()
    images = scrapy.Field()
# settings文件

ITEM_PIPELINES = {
    # 'pic.pipelines.PicPipeline': 300,
    'scrapy.pipelines.images.ImagesPipeline': 1
}
import os
IMAGES_STORE = os.path.dirname(os.path.dirname(__file__)) + "\\img\\"

4、下载文件的 Files Pipeline

4.1 使用Files Pipeline下载文件,按照以下步骤完成

  • 在items文件中定义两个属性,分别为file_urls以及filesfile_urls是用来存储需要下载的文件的url链接,需要给一个列表;
  • 在爬虫文件中导入items中的类,实例化item,保存file_urls的值,爬虫内的业务逻辑不变;
  • 当文件下载完成后,会把文件下载的相关信息自动存储到item的files属性中。如下载路径、下载的url和文件校验码等
  • 启动pipeline:在ITEM_PIPELINES中添加scrapy.piplines.files.FilesPipeline:1,将之前的pipeline注释掉(不注释也会执行)
  • 保存图片,在settings中配置FILES_STORE= ‘文件保存路径’,文件url传到pipeline后会自动下载,文件会自动命名,不需要传入文件名;