前世
今天我们常说的大数据技术,其实来源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式系统文件GFS 、 大数据分布式计算框架 Mapreduce、和NOSQL数据库系统BigTable。
今生
- 两年后2006年,Doug Cutting 将这些大数据相关的功能从Nutch 中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的 Hadoop,主要包括Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。
- Hadoop 发布之后,Yahoo很快就用了起来,大概又过了一年到了2007年,百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。
- 2008年,Haddop正式成为Apache顶级项目。Doug Cutting 本人也成为了 Apache 基金会的主席。
- 同年,出现了专门运营Hadoop的商业公司 Cloudera 成立,Hadoop 得到进一步的商业支持。
- 而后,Yahoo的一些人觉得用MapReduce 进行大数据编程太麻烦了,于是便开发了 pig。
- 编写Pig脚本虽然比MapReduce编程容易,但依然需要学习新的脚本语法,于是Facebook又发布了Hive。
- 随后,百家争鸣 Sqoop,Flume,Oozie,Hbase…等Hadoop周边产品开始出现,大数据生态系统逐渐形成。
Note
大数据体系:

