爬虫

浏览 410 扫码分享 2023-05-10 18:34:53

静态网页
- 场景
- 工具
  - 优点
动态网页
项目

静态网页

场景

适合没有页面上的防爬虫，快速爬HTML静态页面的场景。
neiwork请求回来就是dom结构，如ssr后的网页，门户网站（也需要百度蜘蛛的爬取）等需求。
例：济南住宅与房地产信息

工具

gocolly[13.7K]

优点

类似写 css 选择器，可直接在回调(on)内直接解析XML 、HTML 等。不必写正则。
支持Socket5代理。
可拿到直接 Request、Response 等对象。可以自动合并Header或自己自定义。
支持Find、Filter、Map、Each 等类似es6(js)的方法。

动态网页

场景

适合有页面上的防爬，如图片验证码。
neiwork请求回来，还需要js渲染的spa应用。
需要模拟点击，移动，截图等操作的需求。

工具
chromedp[6.1k]

介绍
介绍：Go使用chromedp库操作headless-chrome爬取”JS画出来的”网站
该库接口和Selenium（python）类似，易上手。
可以运行在win、mac、无界面linux（centos）等。
在没有chrome的机器上（如服务器centos）：
- 直接安装chrom： centos7 安装chromedp v1.0
- 使用docker：How to use chromedp with docker-headless-shell

项目

lifegit/go-crawler - 爬虫框架
lifegit/go-weibo-push - 监听一个微博用户发送的动态，将动态内容通过邮件发送到指定邮箱。
lifegit/go-china-division - 统计用区划代码

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录