一、Hadoop是什么?

  1. Apache基金会开发维护的分布式系统基础架构
  2. 主要用来解决海量数据的分布式存储和计算问题

二、Hadoop的优势

  1. 高可靠性:Hadoop存储架构底层存储多个副本,用以提高可靠性
  2. 高扩展性:Hadoop面向廉价的商用机器设计,可以方便的拓展数千节点
  3. 高效性:使用MapReduce思想进行分布式计算,使用多个节点进行分布式计算
  4. 容错性:自动重新分配失败任务

三、Hadoop核心

  • 计算:MapReduce
  • 存储:HDFS(Hadoop Distributed File System)
  • 资源调度:Yarn
  • 辅助工具:Common

四、HDFS

1. NameNode

Master节点,负责管理分布式文件系统的命名空间,保存两个核心架构:fsimage和editlog

  • fsimage:维护文件系统树以及文件系统树中所有文件和文件夹的元数据
  • editlog:记录对所有文件的创建、删除、重命名等操作

在分布式文件系统中通常维护这两个NameNode节点,分别为Primary NameNode和Secondary NameNode,后者用于实现对前者的备份功能,二者会定期进行通讯来完成备份工作。

2. DataNode

Slave节点(3.0+称为worker),用来实现具体的文件存储,维护blockId和与具体文件的映射,通过心跳和NameNode不断通讯。


五、Yarn

Hadoop2.0加入,之前的版本中,由HDFS负责集群资源的管理,2.0之后由yarn接手。

1. ResourceManager(RM)

全局的资源管理器,负责整个系统的资源管理和分配。主要由两个组件构成

  • 调度器(Scheduler)

根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。

  • 应用程序管理器(ApplicationManager)

负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。

2. ApplicationMaster(AM)

用户提交的每个应用程序均包含一个AM,主要功能包括:

  • 与RM调度器协商以获取资源(用Container表示)
  • 将得到的任务进一步分配给内部的任务(资源的二次分配)
  • 与NM通信以启动/停止任务
  • 监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务

    3. NodeManager(NM)

    每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它接收并处理来自AM的Container启动/停止等各种请求。

    4. Container

    YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。