一、Hadoop是什么?
- Apache基金会开发维护的分布式系统基础架构
- 主要用来解决海量数据的分布式存储和计算问题
二、Hadoop的优势
- 高可靠性:Hadoop存储架构底层存储多个副本,用以提高可靠性
- 高扩展性:Hadoop面向廉价的商用机器设计,可以方便的拓展数千节点
- 高效性:使用MapReduce思想进行分布式计算,使用多个节点进行分布式计算
- 容错性:自动重新分配失败任务
三、Hadoop核心
- 计算:MapReduce
- 存储:HDFS(Hadoop Distributed File System)
- 资源调度:Yarn
- 辅助工具:Common
四、HDFS
1. NameNode
Master节点,负责管理分布式文件系统的命名空间,保存两个核心架构:fsimage和editlog
- fsimage:维护文件系统树以及文件系统树中所有文件和文件夹的元数据
- editlog:记录对所有文件的创建、删除、重命名等操作
在分布式文件系统中通常维护这两个NameNode节点,分别为Primary NameNode和Secondary NameNode,后者用于实现对前者的备份功能,二者会定期进行通讯来完成备份工作。
2. DataNode
Slave节点(3.0+称为worker),用来实现具体的文件存储,维护blockId和与具体文件的映射,通过心跳和NameNode不断通讯。
五、Yarn
Hadoop2.0加入,之前的版本中,由HDFS负责集群资源的管理,2.0之后由yarn接手。
1. ResourceManager(RM)
全局的资源管理器,负责整个系统的资源管理和分配。主要由两个组件构成
- 调度器(Scheduler)
根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。
- 应用程序管理器(ApplicationManager)
负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。
2. ApplicationMaster(AM)
用户提交的每个应用程序均包含一个AM,主要功能包括:
- 与RM调度器协商以获取资源(用Container表示)
- 将得到的任务进一步分配给内部的任务(资源的二次分配)
- 与NM通信以启动/停止任务
- 监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务
3. NodeManager(NM)
每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它接收并处理来自AM的Container启动/停止等各种请求。4. Container
YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。