1. Hadoop下载

本次大数据环境搭建，目标是验证Apache Ranger的特性，根据最新版本Apache Ranger 2.1.0默认支持Hadoop版本，选择安装hadoop 3.3.0;
Hadoop官网下载：https://archive.apache.org/dist/hadoop/common/

将下载得到的hadoop安装包，解压到自定义的安装位置
tar -zxf hadoop-3.3.0.tar.gz -C /opt/module/

2. 配置

2.1 配置JDK/Hadoop环境变量

vim /etc/profile
文件末尾添加

#vim /etc/
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile
最后将profile文件同步到其他节点

2.2 修改hadoop配置

hadoop解压后，可以看到其安装目录，下面是目录的说明：

bin目录存放可执行文件
etc目录存放配置文件
sbin目录下存放服务的启动命令
share目录下存放jar包与文档

修改hadoop配置需要进入 HADOOP_HOME/etc/hadoop 目录下

配置修改参考文章

https://hadoop.apache.org/docs/r3.3.0/hadoop-project-dist/hadoop-common/ClusterSetup.html
2.2.1 hadoop-env.sh
1. 指定JDK环境
2. 修改用户信息
3. 修改pid存储地址

在文件任意位置增加如下配置

export JAVA_HOME=/usr/local/jdk-11.0.2
export HDFS_DATANODE_USER=root
export HADOOP_SECURE_DN_USER=root
export HDFS_NAMENODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export HADOOP_SECURE_DN_USER=root
export YARN_NODEMANAGER_USER=root
export HADOOP_PID_DIR=/opt/hadoop/pids
export YARN_PID_DIR=/opt/hadoop/pids
export HBASE_PID_DIR=/opt/hadoop/pids

2.2.2 core-site.xml

<configuration>
        <!-- 指定HDFS中NameNode的地址 -->
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://master:9000</value>
        </property>
        <!-- 指定Hadoop运行时产生文件的存储目录 -->
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/opt/hadoop/hadoop-3.3.0/data/tmp</value>
        </property>
</configuration>

存储目录不需要手动创建，如果没有，系统会自动创建

2.2.3 hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                 <value>/opt/hadoop/hadoop-3.3.0/data/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/opt/hadoop/hadoop-3.3.0/data/dfs/data</value>
        </property>
        <!-- 指定HDFS副本的数量，不修改默认为3个 -->
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <!-- dfs的SecondaryNameNode在哪台主机上 -->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>slave1:50090</value>
        </property>
</configuration>

2.2.4 yarn-site.xml

<configuration>
<property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
</property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
</property>
<property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
</property>
<property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
</property>
</configuration>

3. 同步到其他节点

完成Hadoop配置后，需要将配置好的Hadoop程序同步到其他节点。

示例中，hadoop配置是在master节点完成的，需要复制到slave1/slave2节点同一路径下。

xsync /opt/hadoop 3.3.0

xsync 是文件复制脚本，功能是将master节点的文件或文件夹复制到slave1/slave2两台节点同样路径下，具体参考环境配置小节

大数据

3. Hadoop安装