一、例子

抓取北京PM2.5各监测站点实时数据。网址:
http://www.86pm25.com/city/beijing.html

3分钟掌握Excel网络爬虫 - 图1

完成数据抓取只要 20 秒钟。

二、抓取流程

抓取网站表格数据分为以下 5 步:

1、打开欲抓取网站,复制网址。

3分钟掌握Excel网络爬虫 - 图2

2、打开 Excel,依次点击「数据」选项卡->「自网站」按钮。

3分钟掌握Excel网络爬虫 - 图3

3、在弹出的「从 Web」窗口中,黏贴复制的网址,点击右下角「确定」。
3分钟掌握Excel网络爬虫 - 图4

4、在弹出的「导航器」窗口,选中要抓取的表格(通常会同时显示几个表格,可以反复尝试,挑出你要的那个),点击右下角「加载」。
3分钟掌握Excel网络爬虫 - 图5
5、自此,表格数据抓取完成。
3分钟掌握Excel网络爬虫 - 图6

三、自动刷新

如果网站数据还会不定时更新,想要表格打开即为最新内容并可定时刷新,可进行如下设置:

1、依次点击「数据」选项卡 ->「全部刷新」按钮下小箭头-> 「连接属性」按钮。

3分钟掌握Excel网络爬虫 - 图7

2、在弹出的「查询属性」窗口中选中 “允许后台刷新”,选中并设定 “刷新频率”,选中“打开文件时刷新数据”。

3分钟掌握Excel网络爬虫 - 图8

3、自此自动刷新功能设定完成。以后每次打开文档均为最新版。此外还可点击「全部刷新」按钮实时刷新。

四、小结

1、应用场景:
包含表格元素的网站,比如下面两个,试试看呗。eg:
1)新浪彩票双色球数据:
http://zst.aicai.com/ssq/dmyl_hq/
2)国家统计局全国固定资产投资数据:
http://www.stats.gov.cn/tjsj/zxfb/201801/t20180118_1574955.html

2、使用限制:
Excel 抓取网站数据并非适用所有网站,抓取网页内必须包含表格元素,如无此元素则无法抓取。此类网站数量大概占所有网站数量10%。

附录:在线爬虫服务

目前有很多在线服务可以提供数据抓取,如:Listlyimport.io等。
这些服务一般有免费版和付费版,免费功能和流量有限一般每个月只爬取一小部分数据。

以Listly为例,演示如何一键抓取数据流程。
1)欲抓取表格数据的网页
3分钟掌握Excel网络爬虫 - 图9

2)Listly 抓取数据
方法 1:网页直接抓取
3分钟掌握Excel网络爬虫 - 图10
方法 2:浏览器插件抓取
3分钟掌握Excel网络爬虫 - 图11
3)抓取结果
3分钟掌握Excel网络爬虫 - 图12

10 秒钟不到,简单点几下鼠标数据就抓下来了。