hadoop - hadoop概述 - 《Hadoop》

1.hadoop分类
- 1.1狭义分类
- 1.2广义分类
2架构介绍

1.hadoop分类

1.1狭义分类

HDFS 海量存储
MapReduce 海量离线计算框架
Yarn 资源调度框架（2.x版本后从MR中分离出来）

1.2广义分类

框架	用途
HDFS	分布式文件系统
MapReduce	分布式运算程序开发框架
ZooKeeper	分布式协调服务基础组件
HIVE	基于HADOOP的分布式数据仓库，提供基于SQL的查询数据操作
FLUME	日志数据采集框架
oozie	工作流调度框架
Sqoop	数据导入导出工具（比如用于mysql和HDFS之间）
Impala	基于hive的实时sql查询分析
Mahout	基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

2架构介绍

1.X版本包括namenode(元数据管理),secondnamenode(负责镜像),jobtaraker,taskTrack（早期yarn雏形），datanode(存数据)
2.X版本可使用HA方式部署，取消secondnamenode,增加namenode(standby),并且增加journalnode管理元数据
使用yarn管理资源调用其中非为resourcemange（分配任务）和nodemanage （执行任务）
3.X版本可以部署多个namenode但是目前尚不稳定