静态网页
场景
- 适合没有页面上的防爬虫,快速爬HTML静态页面的场景。
- neiwork请求回来就是dom结构,如ssr后的网页,门户网站(也需要百度蜘蛛的爬取)等需求。
- 例:济南住宅与房地产信息
工具
gocolly[13.7K]
优点
- 类似写 css 选择器,可直接在回调(on)内直接解析XML 、HTML 等。不必写正则。
- 支持Socket5代理。
- 可拿到直接 Request、Response 等对象。可以自动合并Header或自己自定义。
- 支持Find、Filter、Map、Each 等类似es6(js)的方法。
动态网页
场景
- 适合有页面上的防爬,如图片验证码。
- neiwork请求回来,还需要js渲染的spa应用。
-
工具
chromedp[6.1k]
介绍
- 该库接口和Selenium(python)类似,易上手。
- 可以运行在win、mac、无界面linux(centos)等。
- 在没有chrome的机器上(如 服务器centos):
- 直接安装chrom: centos7 安装chromedp v1.0
- 使用docker:How to use chromedp with docker-headless-shell
项目
- lifegit/go-crawler - 爬虫框架
- lifegit/go-weibo-push - 监听一个微博用户发送的动态,将动态内容通过邮件发送到指定邮箱。
- lifegit/go-china-division - 统计用区划代码