什么是Hadoop

我们生活在一个数据大爆炸的时代,数据飞快的增长,急需解决海量数据的存储和计算问题。
Hadoop是一个适合海量数据的分布式存储和分布式计算的框架。

Hadoop发行版介绍

Apache Hadoop

官方原生版本,开源

Cloudera Hadoop(CDH)

商业版本,它对官方版本做了一些优化,提供收费技术支持,提供界面操作,方便集群运维管理

HortonWorks(HDP)

开源,提供界面操作,方便运维管理,一般互联网公司偏向于使用这个。
目前HDP已经被CDH收购,都是属于一个公司的产品。

最终的建议:建议在实际工作中搭建大数据平台时选择 CDH或者HDP,方便运维管理

Hadoop版本演变历史

目前Hadoop经历了三个大的版本
image.png

  1. hadoop1.xHDFS+MapReduce
  2. hadoop2.xHDFS+YARN+MapReduce
  3. hadoop3.xHDFS+YARN+MapReduce

Hadoop架构

image.png

HDFS

HDFS负责海量数据的分布式存储

MapReduce

MapReduce是一个计算模型,负责海量数据的分布式计算

YARN

YARN主要负责集群资源的管理和调度