Hadoop环境搭建

Hadoop环境搭建

一、安装linux虚拟机

这里安装的是CentOS 7.8 minimal版本CentOS-7-x86_64-Minimal-2003.iso

1.1 虚拟机规划

主机名	CPU	内存	硬盘	HDFS应用	YARN应用
hadoop102	2 * 2	8GB	50GB	NameNode	NodeManager
hadoop103	2 * 2	8GB	50GB	DataNode	ResourceManager NodeManager
hadoop104	2 * 2	8GB	50GB	SecondaryNameNode DataNode	NodeManager

注意：

NameNode 和 SecondaryNameNode 不要安装在同一台服务器
ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

1.2 修改主机名

vi /etc/hostname
# 修改为如下名称
hadoop102

1.3 设置IP地址

安装虚拟机时，如果已经设置好，可以忽略此步骤

vi /etc/sysconfig/network-scripts/ifcfg-ens33

# 设置网络为固定IP，改为固定IP
TYPE="Ethernet"
BOOTPROTO="static"
NAME="ens33"
DEVICE="ens33"
ONBOOT="yes"
IPADDR="192.168.8.102"
PREFIX="24"
GATEWAY="192.168.8.1"
DNS1="192.168.8.1"

1.4 安装epel-release

注：Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包，适用于 RHEL、CentOS 和 Scientific Linux。相当于是一个软件仓库，大多数 rpm 包在官方 repository 中是找不到的）

yum install -y epel-release

1.5 安装基本工具

最小版的系统没有这些基本工具

yum install -y net-tools wget telnet lrzsz vim ntp ntpdate rsync

1.6 关闭防火墙

systemctl stop firewalld
systemctl disable firewalld

1.7 添加主机名与IP对应关系

vi /etc/hosts
# 将下面3条配置复制到所有虚拟机的/etc/hosts文件中
192.168.8.102 hadoop102
192.168.8.103 hadoop103
192.168.8.104 hadoop104

1.8 设置时间同步

/# 安装ntp工具
yum -y install ntp ntpdate
# 编辑定时任务
crontab -e
# 添加如下内容，每分钟同步一次
*/2 * * * *  /usr/sbin/ntpdate -u ntp1.aliyun.com >/dev/null 2>&1

1.9 安装JDK

下载地址：jdk-8u291-linux-x64.rpm

rpm -ivh jdk-8u291-linux-x64.rpm

设置环境变量

# 创建一个my_env.sh文件
vi /etc/profile.d/my_env.sh
 # 在最后面追加如下内容 
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
# wq 退出文件编辑

# 使配置立即生效
source /etc/profile

1.10 创建hadoop用户

创建用户

useradd hadoop

修改密码

passwd hadoop

配置hadoop用户具有root权限

vim /etc/sudoers
# 修改/etc/sudoers文件，在%wheel 这行下面添加一行
hadoop ALL=(ALL) NOPASSWD:ALL

后面所有操作均使用hadoop这个用户执行

1.11 克隆虚拟机

关闭虚拟机
克隆虚拟机
启动克隆后的虚拟机
修改主机名和IP
克隆完成

二、集群分发脚本xsync

2.1 scp命令

scp 可以实现服务器与服务器之间的数据拷贝

基本用法

scp -r $filepath $user@$host:$filepath

示例

# 这里演示将jdk发送到103服务器
scp -r /usr/local/jdk-8u291-linux-x64.rpm root@192.168.8.103:/usr/local/
# 也可以在103服务器上拉取过来，命令如下
cd /usr/local
scp -r root@192.168.8.102:/usr/local/jdk-8u291-linux-x64.rpm .

2.2 rsync远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp是把所有文件都复制过去。

安装rsync

# 需要在所有服务器中都安装
sudo yum install -y rsync

用法

rsync -av $filepath $user@$host:$filepath

示例

# 这里演示将环境变量文件同步到103服务器
rsync -av /etc/profile.d/my_env.sh root@192.168.8.103:/etc/profile.d/

2.3 xsync集群分发工具

xsync脚本可以实现循环复制文件到所有节点的相同目录下，xsync原理上是使用rsync工具进行同步

在/usr/local/bin下创建xsync脚本

# 进入/usr/local/bin目录下，在这个目录下创建后，命令可以全局使用
cd /usr/local/bin
# 创建xsync脚本文件
vim xsync

xsync脚本文件内容

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ==================== $host ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4. 判断文件是否存在
    if [ -e $file ]
      then
        #5. 获取父目录
        pdir=$(cd -P $(dirname $file); pwd)
        #6. 获取当前文件的名称
        fname=$(basename $file)
        ssh $host "mkdir -p $pdir"
        rsync -av $pdir/$fname $host:$pdir
      else
        echo $file does not exists!
    fi
  done
done

为脚本添加可执行权限

chmod +x xsync

同步所有环境变量

xsync /etc/profile.d/my_env.sh

注意，在此时，同步时由于需要ssh登录到各服务器，因此需要密码

2.4 ssh无密登录

在ssh发起登录的服务器上创建无密登录密钥

# 进入到.ssh目录
cd /home/hadoop/.ssh
# 创建密钥对
ssh-keygen -t rsa
# 然后敲3次回车即可

将公钥拷贝到需要免密登录的目标机器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

上述步骤完成后只是完成了从hadoop102免密登录到hadoop103，hadoop104

接下来还要要在另外两台服务器 [hadoop103, hadoop104] 上完成上述操作。实现3台服务器互相免密登录

三、安装Hadoop

整个安装过程，都是使用hadoop用户进行

3.1 下载Hadoop

Hadoop3.2.2下载地址：https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz

# 进入/usr/local目录下
cd /opt
# 下载hadoop
sudo wget https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
# 解压
sudo tar -zxvf hadoop-3.2.2.tar.gz

3.2 将Hadoop添加到环境变量

sudo vi /etc/profile.d/my_env.sh
# 在最后面追加如下内容 
export HADOOP_HOME=/usr/local/hadoop-3.2.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# wq 退出文件编辑

# 使配置立即生效
source /etc/profile

3.3 测试是否安装成功

hadoop version

# 显示如下内容
Hadoop 3.2.2
Source code repository Unknown -r 7a3bc90b05f257c8ace2f76d74264906f0f7a932
Compiled by hexiaoqiao on 2021-01-03T09:26Z
Compiled with protoc 2.5.0
From source with checksum 5a8f564f46624254b27f6a33126ff4
This command was run using /opt/hadoop-3.2.2/share/hadoop/common/hadoop-common-3.2.2.jar

3.4 Hadoop目录结构

drwxr-xr-x. 2 1000 1000    203 1月   3 18:11 bin  # 存放对 Hadoop 相关服务（hdfs，yarn，mapred）进行操作的脚本
drwxr-xr-x. 3 1000 1000     20 1月   3 17:29 etc  # Hadoop 的配置文件目录
drwxr-xr-x. 2 1000 1000    106 1月   3 18:11 include
drwxr-xr-x. 3 1000 1000     20 1月   3 18:11 lib  # 存放 Hadoop 的本地库
drwxr-xr-x. 4 1000 1000    288 1月   3 18:11 libexec
-rw-rw-r--. 1 1000 1000 150569 12月  5 23:09 LICENSE.txt
-rw-rw-r--. 1 1000 1000  21943 12月  5 23:09 NOTICE.txt
-rw-rw-r--. 1 1000 1000   1361 12月  5 23:09 README.txt
drwxr-xr-x. 3 1000 1000   4096 1月   3 17:29 sbin  # 存放启动或停止 Hadoop 相关服务的脚本
drwxr-xr-x. 4 1000 1000     31 1月   3 18:46 share # 存放 Hadoop 的依赖 jar 包、文档、和官方案例

3.5 Hadoop配置文件

Hadoop配置文件存放在$HADOOP_HOME/etc/hadoop目录下

核心配置文件说明：

core-site.xml 核心配置文件
hdfs-site.xml HDFS配置文件
yarn-site.xml YARN配置文件
mapred-site.xml MapReduce配置文件

修改core-site.xml配置

vim core-site.xml

文件内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!-- 指定 NameNode 的地址 -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop102:8020</value>
  </property>

  <!-- 指定 hadoop 数据的存储目录 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-3.2.2/data</value>
  </property>

  <!-- 配置 HDFS 网页登录使用的静态用户为 hadoop -->
  <property>
    <name>hadoop.http.staticuser.user</name>
    <value>hadoop</value>
  </property>
</configuration>

修改hdfs-site.xml配置

vim hdfs-site.xml

文件内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <!-- nn web 端访问地址-->
  <property>
    <name>dfs.namenode.http-address</name>
    <value>hadoop102:9870</value>
  </property>

  <!-- 2nn web 端访问地址-->
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop104:9868</value>
  </property>
</configuration>

修改yarn-site.xml配置

vim yarn-site.xml

文件内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!-- 指定 MR 走 shuffle -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <!-- 指定 ResourceManager 的地址-->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop103</value>
  </property>
  <!-- 环境变量的继承 -->
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
  </property>
  <!-- 开启日志聚集功能 -->
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <!-- 设置日志聚集服务器地址 -->
  <property>
    <name>yarn.log.server.url</name>
    <value>http://hadoop102:19888/jobhistory/logs</value>
  </property>
  <!-- 设置日志保留时间为 7 天 -->
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>
</configuration>

日志聚集功能说明：

应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上，可以方便的查看到程序运行详情，方便开发调试

修改mapred-site.xml配置

vim mapred-site.xml

文件内容如下

<configuration>
  <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <!-- 历史服务器端地址 -->
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
  </property>
  <!-- 历史服务器 web 端地址 -->
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
  </property>
</configuration>

历史服务器是用来查看MapReduce程序的历史运行情况

配置workers

vim workers

文件内容如下

hadoop102
hadoop103
hadoop104

注意：该文件添加的内容结尾不能有空格，文件中不允许有空行

3.6 同步配置到集群所有服务器上

xsync /opt/hadoop-3.2.2/etc/hadoop

四、启动Hadoop集群

4.1 格式化NameNode（仅初次启动使用）

如果集群是第一次启动，需要在配置了NameNode(hadoop102)的节点上格式化

注意：

如果集群在运行过程中遇到问题，需要重新格式化的话，一定要先停止所有namenode和datanode进程，删除所有机器的data和logs目录，然后再进行格式化

hdfs namenode -format

4.2 启动Hadoop

# 启动hdfs
start-dfs.sh
# 启动信息如下
Starting namenodes on [hadoop102]
Starting datanodes
hadoop103: WARNING: /opt/hadoop-3.2.2/logs does not exist. Creating.
hadoop104: WARNING: /opt/hadoop-3.2.2/logs does not exist. Creating.
Starting secondary namenodes [hadoop104]


# 启动yarn 需要在配置了ResourceManager（hadoop103）的节点启动
start-yarn.sh
# 启动信息如下
Starting resourcemanager
Starting nodemanagers

使用jps命令查看各台服务器启动情况

# hadoop102
6149 DataNode
6473 NodeManager
5996 NameNode

# hadoop103
5856 DataNode
6065 ResourceManager
6377 NodeManager

# hadoop104
6708 DataNode
6823 SecondaryNameNode
6942 NodeManager

4.2 停止Hadoop

需要在配置了ResourceManager（hadoop103）的节点启动

# 停止hdfs
stop-dfs.sh
# 停止yarn 需要在配置了ResourceManager（hadoop103）的节点停止
stop-yarn.sh

4.3 各服务组件逐一启动方式

上述start-dfs.sh和start-yarn.sh是集群启动方式，前提是需要配置好ssh免密登录。

如果需要逐一启动各个服务，可使用以下方式

# 分别启动或停止Hadoop组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
# 分别启动或停止YARN组件
yarn --daemon start/stop resourcemanager/nodemanager
# mapreduce历史服务器启动停止
mapred --daemon start/stop historyserver

4.4 WEB端访问

HDFS: http://192.168.8.102:9870

YARN: http://192.168.8.103:8088

JobHistory: http://192.168.8.102:19888/jobhistory

4.5 编写Hadoop集群常用脚本

Hadoop集群启动脚本

# 进入bin目录下，没有这个目录就创建一个mkdir
cd /home/hadoop/bin
vim myhadoop.sh

输入如下内容

#!/bin/bash
# HADOOP安装路径
HADOOP_PATH=$HADOOP_HOME
if [ $# -lt 1 ]
then
  echo "No Args Input..."
  exit ;
fi
case $1 in
"start")
  echo " =================== 启动 hadoop 集群 ==================="
  echo " --------------- 启动 hdfs ---------------"
  ssh hadoop102 "${HADOOP_PATH}/sbin/start-dfs.sh"
  echo " --------------- 启动 yarn ---------------"
  ssh hadoop103 "${HADOOP_PATH}/sbin/start-yarn.sh"
  echo " --------------- 启动 historyserver ---------------"
  ssh hadoop102 "${HADOOP_PATH}/bin/mapred --daemon start historyserver"
  ;;
"stop")
  echo " =================== 关闭 hadoop 集群 ==================="
  echo " --------------- 关闭 historyserver ---------------"
  ssh hadoop102 "${HADOOP_PATH}/bin/mapred --daemon stop historyserver"
  echo " --------------- 关闭 yarn ---------------"
  ssh hadoop103 "${HADOOP_PATH}/sbin/stop-yarn.sh"
  echo " --------------- 关闭 hdfs ---------------"
  ssh hadoop102 "${HADOOP_PATH}/sbin/stop-dfs.sh"
  ;;
*)
  echo "Input Args Error..."
  ;;
esac

保存退出，赋予执行权限

chmod +x myhadoop.sh

查看个服务器Java进程脚本：jpsall

cd /home/hadoop/bin
vim jpsall

输入如下内容

#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
  echo =============== $host ===============
ssh $host jps
done

保存退出，赋予执行权限

chmod +x jpsall

4.6 常用端口号说明

端口名称	Hadoop2.x	Hadoop3.x
NameNode 内部通信端口	8020 / 9000	8020 / 9000/9820
NameNode HTTP UI	50070	9870
MapReduce 查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

五、测试Hadoop集群

5.1 上传小文件到集群

测试文件准备

# 创建一个txt文件
vim word.txt
# 写入如下内容
hadoop yarn
hadoop mapreduce
test
test

hadoop创建文件夹

hadoop fs -mkdir /wordcountdemo
hadoop fs -mkdir /wordcountdemo/input

hadoop上传文件

hadoop fs -put word.txt /wordcountdemo/input

上传完成后可通过web页面查看上传的文件

http://192.168.8.102:9870/explorer.html#/

5.2 上传大文件到集群

将jdk安装包上传到hadoop

# 直接上传到hadoop的根目录下
hadoop fs -put jdk-8u291-linux-x64.rpm /

通过web页面可以看到jdk已经上传到HDFS了

5.3 测试任务执行（YARN+MapReduce）

使用官方测试案例WordCount进行测试

1、准备测试文件，直接使用之前上传的word.txt即可

2、执行程序

# 使用yarn执行命令，其实使用hadoop jar命令执行也可以，但是官方不推荐
# 这里要注意下，后面的input和output的路径都是HDFS上的路径，而且要求output目录不存在
yarn jar /opt/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount /wordcountdemo/input /wordcountdemo/output

3、执行情况如下

2021-06-03 16:20:38,751 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.8.103:8032
2021-06-03 16:20:39,059 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hadoop/.staging/job_1622707904855_0001
2021-06-03 16:20:39,220 INFO input.FileInputFormat: Total input files to process : 1
2021-06-03 16:20:39,283 INFO mapreduce.JobSubmitter: number of splits:1
2021-06-03 16:20:39,377 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1622707904855_0001
2021-06-03 16:20:39,378 INFO mapreduce.JobSubmitter: Executing with tokens: []
2021-06-03 16:20:39,481 INFO conf.Configuration: resource-types.xml not found
2021-06-03 16:20:39,481 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
2021-06-03 16:20:39,631 INFO impl.YarnClientImpl: Submitted application application_1622707904855_0001
2021-06-03 16:20:39,673 INFO mapreduce.Job: The url to track the job: http://hadoop103:8088/proxy/application_1622707904855_0001/
2021-06-03 16:20:39,673 INFO mapreduce.Job: Running job: job_1622707904855_0001
2021-06-03 16:20:44,733 INFO mapreduce.Job: Job job_1622707904855_0001 running in uber mode : false
2021-06-03 16:20:44,734 INFO mapreduce.Job:  map 0% reduce 0%
2021-06-03 16:20:48,770 INFO mapreduce.Job:  map 100% reduce 0%
2021-06-03 16:20:52,793 INFO mapreduce.Job:  map 100% reduce 100%
2021-06-03 16:20:53,806 INFO mapreduce.Job: Job job_1622707904855_0001 completed successfully
2021-06-03 16:20:53,860 INFO mapreduce.Job: Counters: 54
...

4、通过web查看任务执行记录

http://192.168.8.103:8088/cluster

大数据

01、Hadoop环境搭建

Hadoop环境搭建

一、安装linux虚拟机

1.1 虚拟机规划

1.2 修改主机名

1.3 设置IP地址

1.4 安装epel-release

1.5 安装基本工具

1.6 关闭防火墙

1.7 添加主机名与IP对应关系

1.8 设置时间同步

1.9 安装JDK

1.10 创建hadoop用户

1.11 克隆虚拟机

二、集群分发脚本xsync

2.1 scp命令

2.2 rsync远程同步工具

2.3 xsync集群分发工具

2.4 ssh无密登录

三、安装Hadoop

3.1 下载Hadoop

3.2 将Hadoop添加到环境变量

3.3 测试是否安装成功

3.4 Hadoop目录结构

3.5 Hadoop配置文件

3.6 同步配置到集群所有服务器上

四、启动Hadoop集群

4.1 格式化NameNode（仅初次启动使用）

4.2 启动Hadoop

4.2 停止Hadoop

4.3 各服务组件逐一启动方式

4.4 WEB端访问

4.5 编写Hadoop集群常用脚本

4.6 常用端口号说明

五、测试Hadoop集群

5.1 上传小文件到集群

5.2 上传大文件到集群

5.3 测试任务执行（YARN+MapReduce）