命令启动spider
crawl命令
启动spider爬虫
scrapy crawl 爬虫名
脚本启动spider
脚本启动要比命令启动方便,因为脚本启动就归pycharm管理,更方便我们进行调试
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(__file__))
execute(["scrapy","crawl","jobbole"])
# _file_ 函数会返回当前python文件的绝对路径
# os.path.dirname() 函数返回当前文件所在目录的绝对路径
注意:在有的python版本中,file函数可能不返回当前文件的绝对路径,而是返回文件名,最保险的方式是用os.path.abspath(__file__)
来替代file。
debug试试
debug一下脚本看看这个程序大概发生了什么?
目标页面的源码被scrapy下载下来了,并且保存在response参数中。
import scrapy
class BlogspiderSpider(scrapy.Spider):
name = 'blogSpider'
allowed_domains = ['news.cnblogs.com']
start_urls = ['http://news.cnblogs.com/']
def parse(self, response):
pass