7、scrapy框架 - 7.5 下载文件和图片 - 《Python爬虫》

1、下载文件和图片
2、为什么要选择使用scrapy内置的下载文件的方法
3、下载图片的 Images Pipeline
- 3.1 使用images pipeline下载文件步骤
4、下载文件的 Files Pipeline
- 4.1 使用Files Pipeline下载文件，按照以下步骤完成

1、下载文件和图片

爬取汽车之家:https://www.autohome.com.cn/65/#levelsource=000000000_0&pvareaid=101594

普通下载方式，是同步而非异步

import scrapy
class CarSpider(scrapy.Spider):
    name = 'car'
    allowed_domains = ['autohome.com.cn']
    start_urls = ['https://car.autohome.com.cn/photolist/series/41964/5143891.html#pvareaid=3454450']
    def parse(self, response):
        uli = response.xpath("//ul[@id='imgList']/li")
        next_url = 'https://car.autohome.com.cn/' + response.xpath("//div[@class='page']/a[@class='page-item-next']/@href").extract_first()
        print(uli)
        for li in uli:
            print(li)
            item = {}
            src = li.xpath("./a/img/@src").extract_first()
            if src[-3:] == 'gif':
                src = li.xpath("./a/img/@src2").extract_first()
            item['src'] = "http:" + src
            yield item
        if next_url:
            yield scrapy.Request(
                url=next_url,
                callback=self.parse
            )

scrapy为下载items中包含的文件提供了一个可重用的items pipelines,这些pipeline有些共同的方法和结构,一般来说你会使用Files Pipline或者Images Pipeline;

2、为什么要选择使用scrapy内置的下载文件的方法

1：避免重新下载最近已经下载过的数据
2：可以方便的指定文件存储的路径
3：可以将下载的图片转换成通用的格式。如：png,jpg
4：可以方便的生成缩略图
5：可以方便的检测图片的宽和高，确保他们满足最小限制
6：异步下载，效率非常高

3、下载图片的 Images Pipeline

3.1 使用images pipeline下载文件步骤

在items文件中定义两个属性，分别为image_urls以及images。image_urls是用来存储需要下载的文件的url链接，需要给一个列表；
在爬虫文件中导入items中的类，实例化item，保存image_url的值，爬虫内的业务逻辑不变；
当文件下载完成后，会把文件下载的相关信息自动存储到item的images属性中。如下载路径、下载的url和图片校验码等
启动pipeline：在ITEM_PIPELINES中添加scrapy.pipelines.images.ImagesPipeline:1，将之前的pipeline注释掉(不注释也会执行)
保存图片，在settings中配置IMAGES_STORE = ‘文件保存路径’，图片url传到pipeline后会自动下载，文件会自动命名，不需要传入文件名；

异步下载汽车之家的图片

# newcar.py 爬虫文件
import scrapy
from pic.items import PicItem
class NewcarSpider(scrapy.Spider):
    name = 'newcar'
    allowed_domains = ['autohome.com.cn']
    start_urls = ['https://car.autohome.com.cn/photolist/series/41964/5143891.html#pvareaid=3454450']
    def parse(self, response):
        uli = response.xpath("//ul[@id='imgList']/li")
        next_url = response.xpath("//div[@class='page']/a[@class='page-item-next']/@href").extract_first()
        print(uli)
        for li in uli:
            print(li)
            item = PicItem()
            src = li.xpath("./a/img/@src").extract_first()
            if src[-3:] == 'gif':
                src = li.xpath("./a/img/@src2").extract_first()
            item['image_urls'] = ["http:" + src]
            yield item
        if next_url:
            yield scrapy.Request(
                url='https://car.autohome.com.cn/' + next_url,
                callback=self.parse
            )

# items文件
import scrapy


class PicItem(scrapy.Item):
    # define the fields for your item here like:
    image_urls = scrapy.Field()
    images = scrapy.Field()

# settings文件

ITEM_PIPELINES = {
    # 'pic.pipelines.PicPipeline': 300,
    'scrapy.pipelines.images.ImagesPipeline': 1
}
import os
IMAGES_STORE = os.path.dirname(os.path.dirname(__file__)) + "\\img\\"

4、下载文件的 Files Pipeline

4.1 使用Files Pipeline下载文件，按照以下步骤完成

在items文件中定义两个属性，分别为file_urls以及files。file_urls是用来存储需要下载的文件的url链接，需要给一个列表；
在爬虫文件中导入items中的类，实例化item，保存file_urls的值，爬虫内的业务逻辑不变；
当文件下载完成后，会把文件下载的相关信息自动存储到item的files属性中。如下载路径、下载的url和文件校验码等
启动pipeline：在ITEM_PIPELINES中添加scrapy.piplines.files.FilesPipeline:1，将之前的pipeline注释掉(不注释也会执行)
保存图片，在settings中配置FILES_STORE= ‘文件保存路径’，文件url传到pipeline后会自动下载，文件会自动命名，不需要传入文件名；