1. Hadoop下载
本次大数据环境搭建,目标是验证Apache Ranger的特性,根据最新版本Apache Ranger 2.1.0默认支持Hadoop版本,选择安装hadoop 3.3.0;
Hadoop官网下载:https://archive.apache.org/dist/hadoop/common/
将下载得到的hadoop安装包,解压到自定义的安装位置tar -zxf hadoop-3.3.0.tar.gz -C /opt/module/
2. 配置
2.1 配置JDK/Hadoop环境变量
vim /etc/profile
文件末尾添加
#vim /etc/#JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_144export PATH=$PATH:$JAVA_HOME/bin#HADOOP_HOMEexport HADOOP_HOME=/opt/module/hadoop-3.3.0export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
最后将profile文件同步到其他节点
2.2 修改hadoop配置
hadoop解压后,可以看到其安装目录,下面是目录的说明:
- bin目录存放可执行文件
- etc目录存放配置文件
- sbin目录下存放服务的启动命令
- share目录下存放jar包与文档
修改hadoop配置需要进入 HADOOP_HOME/etc/hadoop 目录下
配置修改参考文章
- https://hadoop.apache.org/docs/r3.3.0/hadoop-project-dist/hadoop-common/ClusterSetup.html
2.2.1 hadoop-env.sh
- 指定JDK环境
- 修改用户信息
- 修改pid存储地址
在文件任意位置增加如下配置
export JAVA_HOME=/usr/local/jdk-11.0.2export HDFS_DATANODE_USER=rootexport HADOOP_SECURE_DN_USER=rootexport HDFS_NAMENODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport HADOOP_SECURE_DN_USER=rootexport YARN_NODEMANAGER_USER=rootexport HADOOP_PID_DIR=/opt/hadoop/pidsexport YARN_PID_DIR=/opt/hadoop/pidsexport HBASE_PID_DIR=/opt/hadoop/pids
2.2.2 core-site.xml
<configuration><!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><!-- 指定Hadoop运行时产生文件的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/hadoop/hadoop-3.3.0/data/tmp</value></property></configuration>
2.2.3 hdfs-site.xml
<configuration><property><name>dfs.namenode.name.dir</name><value>/opt/hadoop/hadoop-3.3.0/data/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/opt/hadoop/hadoop-3.3.0/data/dfs/data</value></property><!-- 指定HDFS副本的数量,不修改默认为3个 --><property><name>dfs.replication</name><value>2</value></property><!-- dfs的SecondaryNameNode在哪台主机上 --><property><name>dfs.namenode.secondary.http-address</name><value>slave1:50090</value></property></configuration>
2.2.4 yarn-site.xml
<configuration><property><name>yarn.resourcemanager.address</name><value>master:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>master:8030</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>master:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>master:8033</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>master:8088</value></property></configuration>
3. 同步到其他节点
完成Hadoop配置后,需要将配置好的Hadoop程序同步到其他节点。
示例中,hadoop配置是在master节点完成的,需要复制到slave1/slave2节点同一路径下。
xsync /opt/hadoop 3.3.0
xsync 是文件复制脚本,功能是将master节点的文件或文件夹复制到slave1/slave2两台节点同样路径下,具体参考环境配置小节
