1.hadoop分类

1.1狭义分类

HDFS 海量存储
MapReduce 海量离线计算框架
Yarn 资源调度框架(2.x版本后从MR中分离出来)

1.2广义分类

image.png

框架 用途
HDFS 分布式文件系统
MapReduce 分布式运算程序开发框架
ZooKeeper 分布式协调服务基础组件
HIVE 基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作
FLUME 日志数据采集框架
oozie 工作流调度框架
Sqoop 数据导入导出工具(比如用于mysql和HDFS之间)
Impala 基于hive的实时sql查询分析
Mahout 基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

2架构介绍

1.X版本包括namenode(元数据管理),secondnamenode(负责镜像),jobtaraker,taskTrack(早期yarn雏形),datanode(存数据)
2.X版本可使用HA方式部署,取消secondnamenode,增加namenode(standby),并且增加journalnode管理元数据
使用yarn管理资源调用其中非为resourcemange(分配任务)和nodemanage (执行任务)
3.X版本可以部署多个namenode但是目前尚不稳定