python爬虫 - 2-2 pycharm调试scrapy - 《Python》

命令启动spider
脚本启动spider
debug试试

命令启动spider

crawl命令
启动spider爬虫

scrapy crawl 爬虫名

注意：这个爬虫的名是在初始化项目的时候定义的

脚本启动spider

脚本启动要比命令启动方便，因为脚本启动就归pycharm管理，更方便我们进行调试

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(__file__))
execute(["scrapy","crawl","jobbole"])
# _file_ 函数会返回当前python文件的绝对路径
# os.path.dirname() 函数返回当前文件所在目录的绝对路径

注意：在有的python版本中，file函数可能不返回当前文件的绝对路径，而是返回文件名，最保险的方式是用os.path.abspath(__file__)来替代file。

debug试试

debug一下脚本看看这个程序大概发生了什么？
目标页面的源码被scrapy下载下来了，并且保存在response参数中。

import scrapy
class BlogspiderSpider(scrapy.Spider):
    name = 'blogSpider'
    allowed_domains = ['news.cnblogs.com']
    start_urls = ['http://news.cnblogs.com/']
    def parse(self, response):
        pass