什么是Hadoop

Hadoop是由Apache基金会所开发的分步式基础架构,主要解决海量存储和海量数据的分析计算问题。通常是广泛概念,像Hadoop生态圈。

Hadoop的优势

1,高可靠性:能维护多个副本,即使挂掉,也不会丢失。
2,高扩展性:在集群间分配任务,可方便扩展数千计节点。
3,高效性:并行工作,加快处理速度。
4,高容错性:能够自动将失败的任务重新分配。

HDFS

是分步式文件系统
NameNode(NN):存储元数据,如文件名,文件目录结构
DataNode(DN):存储文件的块数据
SecondaryNameNode(2NN):每隔一段时间对NN进行备份。

YARN

是资源调度工具
ResourceManager(RM):整个集群资源(内存,cpu)的老大
NodeManager(NM):单个服务器资源的老大。
ApplicationMaster :单个任务的老大
Container :容器:相当于独立的服务器,封装资源,内存 CPU 磁盘 网络等。

说明:
1,客户端可以有多个
2,集群上可以运行多个ApplicationMaster
3,每个NodeManager上可以由多个Container

Mapreduce

是海量数据的计算,它分为两个阶段 Map阶段和Reduce阶段
1,Map:并行数据处理输入数据
2,Reduce:对Map阶段结果进行汇总