爬虫顺序

浏览 182 扫码分享 2023-11-25 14:25:30

优化爬虫(静态)
user-agent的使用
代理
timeout
请求转码问题
post请求
ajax
异常处理
cookie

内容的提取
HTML
re
xpath(DOM)
beautifulSoup

JSON
json ,jsonpath,dump,dumps

动态页面抓取
slennium + ChromJS

Scrapy框架学习
sprider 基础类
items
pipelines
settings

CrawlSpider 类
LinkExtractor
Rule

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录