静态网页

场景

  1. 适合没有页面上的防爬虫,快速爬HTML静态页面的场景
  2. neiwork请求回来就是dom结构,如ssr后的网页,门户网站(也需要百度蜘蛛的爬取)等需求。
  3. 例:济南住宅与房地产信息

工具

gocolly[13.7K]

优点
  1. 类似写 css 选择器,可直接在回调(on)内直接解析XML 、HTML 等。不必写正则。
  2. 支持Socket5代理。
  3. 可拿到直接 Request、Response 等对象。可以自动合并Header或自己自定义。
  4. 支持Find、Filter、Map、Each 等类似es6(js)的方法。

动态网页

场景

  1. 适合有页面上的防爬,如图片验证码。
  2. neiwork请求回来,还需要js渲染的spa应用。
  3. 需要模拟点击,移动,截图等操作的需求。

    工具

    chromedp[6.1k]

    介绍

  4. 介绍:Go使用chromedp库操作headless-chrome爬取”JS画出来的”网站

  5. 该库接口和Selenium(python)类似,易上手。
  6. 可以运行在win、mac、无界面linux(centos)等。
  7. 在没有chrome的机器上(如 服务器centos):

项目