参考:

  • Hadoop.The.Definitive.Guide.4th

—— 葛蕾丝·霍珀(Grace Hopper)
“在古时候,人们用牛来拉重物。当一头牛拉不动一根圆木时,人们从来没有考虑过要想方设法培育出一种更强壮的牛。同理,我们也不该想方设法打造什么超级计算机,而应该千方百计综合利用更多计算机来解决问题。”

数据!数据!

我们生活在这个数据大爆炸的时代,很难估算全球电子设备中存储的数据总共有多少。

国际数据公司(IDC)曾经发布报告称,2013年数字世界(digital universe)项目统计得出全球数据总量为4.4ZB(ettabyte)并预测在2020年将达到44ZB。
1ZB 等于 10 B(bytes),等于 1,000 EB(exabytes)1,000,000 PB(petabytes),等于大家更熟悉的 10亿 TB (trerrabytes)!这远远超过了全世界每人一块硬盘中所能保存的数据总量!

数据如何产生

数据“洪流”(flood)有很多来源。以下面列出的为例:

  • 纽约证交所每天产生的交易数据大约在4TB至5TB之间;
  • 脸谱网(Facebook)存储的照片超过2400亿张,并以每月至少7PB的速度增长;
  • 家谱网站 Ancestry.com存储的数据约为10 PB;
  • 互联网档案 馆(The Internet Archive)存储的数据约为18.5PB;
  • 瑞士日内瓦附近的大型强子对撞机每年产生的数据约为30PB。

还有其他大量的数据。但是你可能会想它对自己又有哪些影响呢?地球人都知道,大部分数据都戒备森严,被锁存在一些大型互联网公司(如搜索引擎公司)或科学机构与金融机构中。大数据的出现会影响到小机构和个人吗?

我个人是这样认为的。以照片为例,我妻子的爷爷是一个骨灰级的摄影爱好者。他成年之后,一直都在拍照。他的整个相册,包括普通胶片、幻灯片以及35mm胶片,在扫描成高分辨率的图片之后,大约有10GB。 相比之下,单单是2008年,我家用数码相机拍的照片就有5 GB。对照爷爷的照片生成速度,我家是他老人家的35倍!并且,而且这个速度还在不断增长中,因为现在拍照片真的是越来越容易。

有一种情况更普遍,个人产生的数据正在快速增长。微软研究院的MyLifeBits 项目(http://bit.ly/ms_mylifebits)显示,在不久的将来,个人信息档案将日益普及。
MyLifeBits的一个实验是获取和保存个人的对外联系情况(包括电话、邮件和文件),供日后存取。收集的数据中包括每分钟拍摄的照片等,数据量每月约为1GB。当存储成本急剧下降以至于可以存储音频和视频时,MyLifeBits项目未来的存储数据量将是现在的很多倍。

保存个人成长过程中产生的所有数据似乎逐渐成为主流,但更重要的也许是,作为物联网一部分的机器设备产生的数据可能远远超过我们个人所产生的数据。机器日志RFID读卡器传感器网络车载GPS零售交易数据等,所有这些都将产生巨量的数据。

在网上公开发布的数据也在逐年增加中。组织或企业,要想在未来取得成功,不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息。
这方面的先锋有 Amazon Web Services (http://aws.amczon.com/public-data-sets) 和Infochimps.org (http://infochimps.org/),它们所发布的共享数据集,正在促进信息共享(information commons), 供所有人自由下载和分析(或者只需要一个合理的价格)。不同来源的信息在经过混搭和处理之后,会带来意外的效果和我们今天难以想象的应用。

数据如何使用

以Astrometry.net (http:///astrometry.net)为例,主要查看和分析Flickr 网站上天体测量兴趣小组所拍摄的星空照片。它对每一张照片进行分析并能辨别出它来自星空或其他天体(例如恒星和星系等)的哪一部分。
虽然这项研究尚处于试验阶段,但也表明如果可用的数据足够多(在本例中,为加有标签的图片数据),通过它们而产生的后续应用也许会超乎这些拍照片的人最初的想象(图片分析)。

有句话说得好:“大数据胜于好算法”(more data usually beats better algorithms) 意思是说对于 某些应用(譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛,基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果。

现在,我们已经有了大量数据,这是个好消息。但不幸的是,我们必须想方设法好好地存储分析这些数据。