1、解压
2、环境变量
3、配置 On Yarn和History Server
- 3.1 修改配置文件
- 3.2 拷贝配置文件
4、分发
5、启动
6、附录
- 6.1 如果之前安装过2.3.x或者2.4.x版本

1、解压

从software目录下解压至module目录。

[root@slave4 software]# ls
apache-hive-3.1.2-bin.tar.gz  hadoop-3.2.1.tar.gz  nacos-server-1.1.4.tar.gz  spark-3.0.0-bin-hadoop3.2.tgz
[root@slave4 software]# tar -xzvf spark-3.0.0-bin-hadoop3.2.tgz -C ../module/

-C 参数表示解压到指定目录。

2、环境变量

清除2.4.x版本的环境变量所有节点增加spark-3.0.0-bin-hadoop3.2环境变量。

# set spark environment
export SPARK_HOME=/opt/module/spark-3.0.0-bin-hadoop3.2
export SPARK_CONF_DIR=${SPARK_HOME}/conf
export PATH=$PATH:${SPARK_HOME}/bin

记得source一下生效。

3、配置 On Yarn和History Server

进入/opt/module/spark-3.0.0-bin-hadoop3.2/conf目录，修改并分发配置文件。

3.1 修改配置文件

spark-env.sh

# generic config
SPARK_PID_DIR=${SPARK_HOME}/pid
# run in yarn cluster mode config
HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
JAVA_HOME=填入JDK安装路径
# set history server
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://填入HDFS主节点hostname:9000/directory 
-Dspark.history.retainedApplications=30"

slaves

master
slave1
slave2
slave3
...

spark-defaults.conf

...
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://填入HDFS主节点hostname:9000/directory
spark.yarn.historyServer.address=填入Yarn主节点hostname:18080
spark.history.ui.port=18080
...

1、没有spark-defaults.conf文件就将spark-defaults.conf.template文件copy一份。 2、需要手动在HDFS根目录上新建名称为directory的目录。

3.2 拷贝配置文件

将/opt/module/hadoop-3.2.1/etc/hadoop/目录下的core-site.xml，hdfs-site.xml拷贝至/opt/module/spark-3.0.0-bin-hadoop3.2/conf目录中。
将/opt/module/apache-hive-3.1.2-bin/conf/目录下的hive-site.xml拷贝至/opt/module/spark-3.0.0-bin-hadoop3.2/conf目录中。

4、分发

快捷分发。
1、检查其他节点是否有/opt/module目录。
2、进入/opt/module目录，执行scp -r spark-3.0.0-bin-hadoop3.2 节点hostname:$PWD

5、启动

1、启动
进入spark-3.0.0-bin-hadoop3.2/sbin目录，执行启动集群脚本。

[root@slave4 sbin]# ./start-all.sh

2、检查
浏览器访问http://填入Spark主节点IP:8080查看worker个数，状态等信息。

6、附录

6.1 如果之前安装过2.3.x或者2.4.x版本

如果之前机器装过2.3.x或者2.4.x版本的spark，那么需要删除之前的环境变量，配置成3.0.0版本的环境变量。

环境部署

Spark 3.0.0 (On Yarn And History Server)