昨天偶然间翻到了一个叫Chromeless的Github项目,今天花了一小时看了下文档,并写了个demo分享出来,也许对未来做爬虫有帮助。

什么是Chromeless?

居于Chrome Headless 做了一层封装,通过api调用操作chrome浏览器(点击,输入,打开网站等等)

什么是Chrome Headless ?
详细:http://www.jianshu.com/p/b01de206a0d7

Chromeless有啥用?

1. 并行执行1000次浏览器集成测试(Run 1000s of browser integration tests in parallel)
2. 抓取网页并自动截图
3. 编写需要真实留你浏览器环境的机器人
4. 以前PhantomJS,NightmareJS或Selenium能做的事几乎能做

没看懂?
个人理解适用场景: 适合爬虫工具

安装要求:

  1. node 版本 8.2+
  2. chrome 版本 60+

安装:

npm install chromeless

来个Demo

  1. const { Chromeless } = require('chromeless');
  2. async function run() {
  3. const chromeless = new Chromeless();
  4. const screenshot = await chromeless
  5. // 打开百度
  6. .goto('https://www.baidu.com')
  7. // 定位name为wd的输入框,并输入chromeless
  8. .type('chromeless', 'input[name="wd"]')
  9. // 点击id为su 元素
  10. .click('#su')
  11. // 等待 id为content_left元素加载
  12. .wait('#content_left')
  13. // 截图
  14. .screenshot();
  15. // 打印本地文件路径或者S3 URL
  16. console.log(screenshot);
  17. // 结束
  18. await chromeless.end()
  19. }
  20. run().catch(console.error.bind(console));

运行:

Chromeless 可以在本地chrome或者远程到 AWS Lambda 的Chrome 上运行,上面例子在本地执行后结果,输出一张截图,打开截图确实为百度搜索页面:

Chromeless 初体验 - 图1

无头模式:

win环境:

  1. 先设置chrome启动为—headless
    cd “C:\Program Files (x86)\Google\Chrome\Application”
    chrome —remote-debugging-port=9222 —disable-gpu —headless
  2. 再次执行上面脚本,发现浏览器不启动了,但结果还是正常输入。

github:
https://github.com/graphcool/chromeless

更多API:
https://github.com/graphcool/chromeless/blob/master/docs/api.md