1. 优化爬虫(静态)

    2. user-agent的使用

    3. 代理
    4. timeout
    5. 请求转码问题
    6. post请求
    7. ajax
    8. 异常处理
    9. cookie
    1. 内容的提取

    2. HTML

    3. re
    4. xpath(DOM)
    5. beautifulSoup
    1. JSON
    2. json ,jsonpath,dump,dumps
    1. 动态页面抓取

    2. slennium + ChromJS

    1. Scrapy框架学习

    2. sprider 基础类

    3. items
    4. pipelines
    5. settings
    1. CrawlSpider 类
    2. LinkExtractor
    3. Rule