1.hadoop分类
1.1狭义分类
HDFS 海量存储
MapReduce 海量离线计算框架
Yarn 资源调度框架(2.x版本后从MR中分离出来)
1.2广义分类
框架 | 用途 |
---|---|
HDFS | 分布式文件系统 |
MapReduce | 分布式运算程序开发框架 |
ZooKeeper | 分布式协调服务基础组件 |
HIVE | 基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作 |
FLUME | 日志数据采集框架 |
oozie | 工作流调度框架 |
Sqoop | 数据导入导出工具(比如用于mysql和HDFS之间) |
Impala | 基于hive的实时sql查询分析 |
Mahout | 基于mapreduce/spark/flink等分布式运算框架的机器学习算法库 |
2架构介绍
1.X版本包括namenode(元数据管理),secondnamenode(负责镜像),jobtaraker,taskTrack(早期yarn雏形),datanode(存数据)
2.X版本可使用HA方式部署,取消secondnamenode,增加namenode(standby),并且增加journalnode管理元数据
使用yarn管理资源调用其中非为resourcemange(分配任务)和nodemanage (执行任务)
3.X版本可以部署多个namenode但是目前尚不稳定