优化爬虫(静态) user-agent的使用 代理timeout请求转码问题post请求ajax异常处理cookie 内容的提取 HTML rexpath(DOM)beautifulSoup JSONjson ,jsonpath,dump,dumps 动态页面抓取 slennium + ChromJS Scrapy框架学习 sprider 基础类 itemspipelinessettings CrawlSpider 类LinkExtractorRule