背景

2.0.0之前,NameNode在HDFS集群当中存在着单点故障(single point of failure )的风险。每个hdfs集群中有且仅有一个NameNode,这样就会导致,一旦NameNode的服务不可用,那么,在NameNode重启或者在另一个机器中重启之前,整个集群将会陷入瘫痪。
影响HDFS集群的两个主要的原因是:

  1. 在突发事件(如机器宕机)中,在操作员重启NameNode之前,整个集群将会变得不可用。
  2. NameNode 机器上的软件或硬件升级等计划维护事件将导致集群停机窗口。

HDFS 高可用性功能通过提供在具有热备用的主动/被动配置中的同一集群中运行两个(或更多,从 Hadoop 3.0.0 起)冗余 NameNode 的选项来解决上述问题。