1. Hadoop集群操作

:::info 💡 根据遗忘曲线：如果没有记录和回顾，6天后便会忘记75%的内容

  读书笔记正是帮助你记录和回顾的工具，不必拘泥于形式，其核心是：记录、翻看、思考

:::

1. Hadoop集群操作

1.1 启动Hadoop集群

1.1.1 格式化文件系统

如果集群是第一次启动，需要在hadoop100节点格式化NameNode。

注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。

Hadoop第五节课堂笔记 - 图1

执行上述任意一条命令均可以进行Hadoop集群格式化。执行格式化指令之后，出现： has been successfully formatted.信息，表明HDFS文件系统成功格式化，即可正式启动集群；否则，需要查看命令是否正确，或者安装配置是否正确。

1.1.2 启动Hadoop进程

Hadoop集群的启动，需要启动其内部的两个集群框架，HDFS集群和YARN集群。启动方式有单节点逐个启动和使用脚本一键启动两种。

启动HDFS

Hadoop第五节课堂笔记 - 图2

启动YARN

在配置了ResourceManager的节点（hadoop103）启动YARN

Hadoop第五节课堂笔记 - 图3

1.2 监控Hadoop集群

Hadoop集群有相关的服务监控端口，方便用户对Hadoop集群的资源、任务运行状态等信息有更直观的了解，具体如下表：

服务	Web接口	默认端口
NameNode	http://namenode_host:port/	9870

ResourceManager	http://resourcemanager_host:port/	8088
MapReduce JobHistoryServer	http://jobhistroyserver_host:port/	19888

1.2.1 HDFS监控

Web端查看HDFS的NameNode：
（a）浏览器中输入：http://hadoop100:9870 Hadoop第五节课堂笔记 - 图4

+ Overview 记录了NameNode的启动时间、版本号、编译版本等一些基本信息。 + Summary 记录集群信息。提供了当前集群环境的一些有用信息，同时还标注了当前集群环境中DataNode的信息，对活动状态的DataNode也专门进行了记录。 + NameNode Storage 提供了NameNode的信息，最后的State标示此节点为活动节点，可正常提供服务。依次选择“Utilities”→“Browse the file system”命令可以查看HDFS上的文件信息。 Hadoop第五节课堂笔记 - 图5