:::info 💡 根据 遗忘曲线:如果没有记录和回顾,6天后便会忘记75%的内容

  1. 读书笔记正是帮助你记录和回顾的工具,不必拘泥于形式,其核心是:记录、翻看、思考

:::

1. 集群配置

1.1 集群配置规划

安装前先做好节点规划,完全分布式目前规划1个主节点(Master)和2个从节点(Slave)一共三个节点。

部署规划要求:

NameNode和SecondaryNameNode不要安装在同一台服务器。

ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。

**hadoop100** hadoop101 hadoop103
HDFS NameNodeDataNode DataNode SecondaryNameNodeDataNode
YARN NodeManager ResourceManagerNodeManager NodeManager

1.2 配置文件说明

Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。
  1. 默认配置文件:
要获取的默认文件 文件存放在Hadoop的jar包中的位置
[core-default.xml] hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml] hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml] hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml] hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml
以上文件参数很多,具体使用时可以访问Hadoop官方文档,进入文档底部的Configuration部分进行学习和查看。
Hadoop第四节课堂笔记 - 图1 2. 自定义配置文件: core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。

Hadoop第四节课堂笔记 - 图2

1.3 配置集群

要在多台计算机上进行hadoop集群搭建,还需要对相关配置文件进行修改,来保证集群服务协调运行。进入/opt/module/hadoop-3.1.3/etc/hadoop目录,并修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers共5个配置文件的内容。

1.3.1 配置core-site.xml文件

core-site.xml是Hadoop的核心配置文件,用于配置HDFS地址、端口号、以及临时文件目录,即fs.defaultFS和hadoop.tmp.dir。fs.defaultFS配置了Hadoop的HDFS文件系统的NameNode端口。hadoop.tmp.dir配置了Hadoop的临时文件的目录。

1.将目录切换到/etc/hadoop

Hadoop第四节课堂笔记 - 图3

2.使用vim编辑器打开文件

Hadoop第四节课堂笔记 - 图4

文件内容如下:

Hadoop第四节课堂笔记 - 图5

上述文件配置了HDFS的主进程NameNode运行主机(Hadoop集群的主节点),同时配置了Hadoop运行时生成数据的临时目录。:wq保存退出。

1.3.2 配置hdfs-site.xml文件

hdfs-site.xml设置了HDFS相关的配置,HDFS的NameNode和DataNode两大进程。dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode元数据和DataNode数据存储位置。dfs.namenode.secondary.http-address配置了SecondaryNameNode的地址。dfs.replication配置了文件块的副本数,默认为3个副本,不作修改。

1.打开hdfs-site.xml文件:

Hadoop第四节课堂笔记 - 图6

2.文件内容如下:

Hadoop第四节课堂笔记 - 图7

上述配置文件中,设置了执行框架设置为YARN。:wq保存退出。

1.3.3 配置mapred-site.xml文件

mapred-site.xml设置了MapReduce框架的相关配置,由于Hadoop 3.x使用了YARN框架,所以必须指定mapreduce.framework.name配置项的值为“yarn”。mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是JobHistoryserver的相关配置,即运行MapReduce任务的日志相关服务端口。此文件用于指定MapReduce运行框架,是MapReduce的核心配置文件。

1.打开mapred-site.xml文件

Hadoop第四节课堂笔记 - 图8

2.文件内容如下:

Hadoop第四节课堂笔记 - 图9

上述配置文件中,设置了执行框架设置为YARN。:wq保存退出。

1.3.4 配置yarn-site.xml文件

yarn-site.xml文件设置了YARN框架的相关配置,文件中命名了一个yarn.resourcemanager.hostname的变量,指定YARN集群的管理者在YARN的相关配置中可以直接引用该变量,其他配置保持不变即可。
1.打开yarn-site.xml文件

Hadoop第四节课堂笔记 - 图10

2.文件内容如下:

Hadoop第四节课堂笔记 - 图11

上述配置文件中,配置了YARN的主进程ResourceManager运行主机为hadoop103,将NodeManager运行时的附属服务配置为:mapreduce_shuffle以及环境变量的继承。:wq保存。

其他配置也可以参考hadoop官方文档进行,网址:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

1.3.5 配置workers

1.workers文件保存的是从节点(slave节点)的信息。

Hadoop第四节课堂笔记 - 图12

2.在该文件中增加如下内容:

Hadoop第四节课堂笔记 - 图13

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。:wq保存退出。

1.3.6 配置日志的聚集

Hadoop第四节课堂笔记 - 图14

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager 、ResouceManager和HistoryServer。
开启日志聚集功能具体步骤如下:
  1. 配置yarn-site.xml

Hadoop第四节课堂笔记 - 图15

  1. 添加如下配置:

Hadoop第四节课堂笔记 - 图16

1.4 在集群上分发配置好的Hadoop配置文件

使用xsync工具进行文件分发:

[lsjia@hadoop1020hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

Hadoop第四节课堂笔记 - 图17

1.5 查看文件分发情况

到hadoop101和hadoop103上查看文件分发情况:

Hadoop第四节课堂笔记 - 图18

集群配置完成。