1. Hadoop下载

本次大数据环境搭建,目标是验证Apache Ranger的特性,根据最新版本Apache Ranger 2.1.0默认支持Hadoop版本,选择安装hadoop 3.3.0;
Hadoop官网下载:https://archive.apache.org/dist/hadoop/common/

将下载得到的hadoop安装包,解压到自定义的安装位置
tar -zxf hadoop-3.3.0.tar.gz -C /opt/module/

2. 配置

2.1 配置JDK/Hadoop环境变量

vim /etc/profile
文件末尾添加

  1. #vim /etc/
  2. #JAVA_HOME
  3. export JAVA_HOME=/opt/module/jdk1.8.0_144
  4. export PATH=$PATH:$JAVA_HOME/bin
  5. #HADOOP_HOME
  6. export HADOOP_HOME=/opt/module/hadoop-3.3.0
  7. export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile
最后将profile文件同步到其他节点

2.2 修改hadoop配置

hadoop解压后,可以看到其安装目录,下面是目录的说明:

  • bin目录存放可执行文件
  • etc目录存放配置文件
  • sbin目录下存放服务的启动命令
  • share目录下存放jar包与文档

修改hadoop配置需要进入 HADOOP_HOME/etc/hadoop 目录下

配置修改参考文章

  1. https://hadoop.apache.org/docs/r3.3.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

    2.2.1 hadoop-env.sh

    1. 指定JDK环境
    2. 修改用户信息
    3. 修改pid存储地址

在文件任意位置增加如下配置

  1. export JAVA_HOME=/usr/local/jdk-11.0.2
  2. export HDFS_DATANODE_USER=root
  3. export HADOOP_SECURE_DN_USER=root
  4. export HDFS_NAMENODE_USER=root
  5. export HDFS_SECONDARYNAMENODE_USER=root
  6. export YARN_RESOURCEMANAGER_USER=root
  7. export HADOOP_SECURE_DN_USER=root
  8. export YARN_NODEMANAGER_USER=root
  9. export HADOOP_PID_DIR=/opt/hadoop/pids
  10. export YARN_PID_DIR=/opt/hadoop/pids
  11. export HBASE_PID_DIR=/opt/hadoop/pids

2.2.2 core-site.xml

  1. <configuration>
  2. <!-- 指定HDFSNameNode的地址 -->
  3. <property>
  4. <name>fs.defaultFS</name>
  5. <value>hdfs://master:9000</value>
  6. </property>
  7. <!-- 指定Hadoop运行时产生文件的存储目录 -->
  8. <property>
  9. <name>hadoop.tmp.dir</name>
  10. <value>/opt/hadoop/hadoop-3.3.0/data/tmp</value>
  11. </property>
  12. </configuration>

存储目录不需要手动创建,如果没有,系统会自动创建

2.2.3 hdfs-site.xml

  1. <configuration>
  2. <property>
  3. <name>dfs.namenode.name.dir</name>
  4. <value>/opt/hadoop/hadoop-3.3.0/data/dfs/name</value>
  5. </property>
  6. <property>
  7. <name>dfs.datanode.data.dir</name>
  8. <value>/opt/hadoop/hadoop-3.3.0/data/dfs/data</value>
  9. </property>
  10. <!-- 指定HDFS副本的数量,不修改默认为3 -->
  11. <property>
  12. <name>dfs.replication</name>
  13. <value>2</value>
  14. </property>
  15. <!-- dfsSecondaryNameNode在哪台主机上 -->
  16. <property>
  17. <name>dfs.namenode.secondary.http-address</name>
  18. <value>slave1:50090</value>
  19. </property>
  20. </configuration>

2.2.4 yarn-site.xml

  1. <configuration>
  2. <property>
  3. <name>yarn.resourcemanager.address</name>
  4. <value>master:8032</value>
  5. </property>
  6. <property>
  7. <name>yarn.resourcemanager.scheduler.address</name>
  8. <value>master:8030</value>
  9. </property>
  10. <property>
  11. <name>yarn.resourcemanager.resource-tracker.address</name>
  12. <value>master:8031</value>
  13. </property>
  14. <property>
  15. <name>yarn.resourcemanager.admin.address</name>
  16. <value>master:8033</value>
  17. </property>
  18. <property>
  19. <name>yarn.resourcemanager.webapp.address</name>
  20. <value>master:8088</value>
  21. </property>
  22. </configuration>

3. 同步到其他节点

完成Hadoop配置后,需要将配置好的Hadoop程序同步到其他节点。

示例中,hadoop配置是在master节点完成的,需要复制到slave1/slave2节点同一路径下。

  1. xsync /opt/hadoop 3.3.0

xsync 是文件复制脚本,功能是将master节点的文件或文件夹复制到slave1/slave2两台节点同样路径下,具体参考环境配置小节