前世

今天我们常说的大数据技术，其实来源于Google在2004年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式系统文件GFS 、 大数据分布式计算框架 Mapreduce、和NOSQL数据库系统BigTable。

01-大数据的前世今生 - 图1

今生

两年后2006年，Doug Cutting 将这些大数据相关的功能从Nutch 中分离了出来，然后启动了一个独立的项目专门开发维护大数据技术，这就是后来赫赫有名的 Hadoop，主要包括Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。
Hadoop 发布之后，Yahoo很快就用了起来，大概又过了一年到了2007年，百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。
2008年，Haddop正式成为Apache顶级项目。Doug Cutting 本人也成为了 Apache 基金会的主席。
同年，出现了专门运营Hadoop的商业公司 Cloudera 成立，Hadoop 得到进一步的商业支持。
而后，Yahoo的一些人觉得用MapReduce 进行大数据编程太麻烦了，于是便开发了 pig。
编写Pig脚本虽然比MapReduce编程容易，但依然需要学习新的脚本语法，于是Facebook又发布了Hive。
随后，百家争鸣 Sqoop,Flume,Oozie,Hbase…等Hadoop周边产品开始出现，大数据生态系统逐渐形成。
Note
大数据体系: