4.1 集群部署规划
安装前先做好节点规划,完全分布式目前规划1个主节点(Master)和2个从节点(Slave)一共三个节点。
部署规划要求:
NameNode和SecondaryNameNode不要安装在同一台服务器。
ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
4.2 配置文件说明
Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。
默认配置文件:
要获取的默认文件 文件存放在Hadoop的jar包中的位置
[core-default.xml] hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml] hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml] hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml] hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml
4.3 配置集群
要在多台计算机上进行hadoop集群搭建,还需要对相关配置文件进行修改,来保证集群服务协调运行。进入/opt/module/hadoop-3.1.3/etc/hadoop目录,并修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers共5个配置文件的内容。
4.3.1 配置core-site.xml文件
core-site.xml是Hadoop的核心配置文件,用于配置HDFS地址、端口号、以及临时文件目录,即fs.defaultFS和hadoop.tmp.dir。fs.defaultFS配置了Hadoop的HDFS文件系统的NameNode端口。hadoop.tmp.dir配置了Hadoop的临时文件的目录。
将目录切换到/etc/hadoop
4.3.2 配置hdfs-site.xml文件
hdfs-site.xml设置了HDFS相关的配置,HDFS的NameNode和DataNode两大进程。dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode元数据和DataNode数据存储位置。dfs.namenode.secondary.http-address配置了SecondaryNameNode的地址。dfs.replication配置了文件块的副本数,默认为3个副本,不作修改。
打开hdfs-site.xml文件:输入命令:vim hdfs-site.xml
4.3.3 配置mapred-site.xml文件
mapred-site.xml设置了MapReduce框架的相关配置,由于Hadoop 3.x使用了YARN框架,所以必须指定mapreduce.framework.name配置项的值为“yarn”。mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是JobHistoryserver的相关配置,即运行MapReduce任务的日志相关服务端口。此文件用于指定MapReduce运行框架,是MapReduce的核心配置文件。
打开mapred-site.xml文件 输入命令:vim mapred-site.xml
4.3.4 配置yarn-site.xml文件
yarn-site.xml文件设置了YARN框架的相关配置,文件中命名了一个yarn.resourcemanager.hostname的变量,指定YARN集群的管理者在YARN的相关配置中可以直接引用该变量,其他配置保持不变即可。
打开yarn-site.xml文件 输入命令:vim yarn-site.xml
4.3.5 配置workers
输入命令:vim /opt/module/hadoop-3.1.3/etc/hadoop/workers 添加内容 :hadoop102 hadoop103 hadoop1044.3.6 配置日志的聚集
- 配置yarn-site.xml
- vim yarn-site.xml