什么是Hadoop
我们生活在一个数据大爆炸的时代,数据飞快的增长,急需解决海量数据的存储和计算问题。
Hadoop是一个适合海量数据的分布式存储和分布式计算的框架。
Hadoop发行版介绍
Apache Hadoop
Cloudera Hadoop(CDH)
商业版本,它对官方版本做了一些优化,提供收费技术支持,提供界面操作,方便集群运维管理
HortonWorks(HDP)
开源,提供界面操作,方便运维管理,一般互联网公司偏向于使用这个。
目前HDP已经被CDH收购,都是属于一个公司的产品。
最终的建议:建议在实际工作中搭建大数据平台时选择 CDH或者HDP,方便运维管理
Hadoop版本演变历史
目前Hadoop经历了三个大的版本
hadoop1.x:HDFS+MapReducehadoop2.x:HDFS+YARN+MapReducehadoop3.x:HDFS+YARN+MapReduce
Hadoop架构
HDFS
MapReduce
YARN
YARN主要负责集群资源的管理和调度
