1、解压
从software目录下解压至module目录。
[root@slave4 software]# lsapache-hive-3.1.2-bin.tar.gz hadoop-3.2.1.tar.gz nacos-server-1.1.4.tar.gz spark-3.0.0-bin-hadoop3.2.tgz[root@slave4 software]# tar -xzvf spark-3.0.0-bin-hadoop3.2.tgz -C ../module/
-C 参数表示解压到指定目录。
2、环境变量
清除2.4.x版本的环境变量所有节点增加spark-3.0.0-bin-hadoop3.2环境变量。
# set spark environmentexport SPARK_HOME=/opt/module/spark-3.0.0-bin-hadoop3.2export SPARK_CONF_DIR=${SPARK_HOME}/confexport PATH=$PATH:${SPARK_HOME}/bin
记得source一下生效。
3、配置 On Yarn和History Server
进入/opt/module/spark-3.0.0-bin-hadoop3.2/conf目录,修改并分发配置文件。
3.1 修改配置文件
spark-env.sh
# generic configSPARK_PID_DIR=${SPARK_HOME}/pid# run in yarn cluster mode configHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoopYARN_CONF_DIR=${HADOOP_HOME}/etc/hadoopJAVA_HOME=填入JDK安装路径# set history serverexport SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080-Dspark.history.fs.logDirectory=hdfs://填入HDFS主节点hostname:9000/directory-Dspark.history.retainedApplications=30"
slaves
masterslave1slave2slave3...
spark-defaults.conf
...spark.eventLog.enabled truespark.eventLog.dir hdfs://填入HDFS主节点hostname:9000/directoryspark.yarn.historyServer.address=填入Yarn主节点hostname:18080spark.history.ui.port=18080...
1、没有
spark-defaults.conf文件就将spark-defaults.conf.template文件copy一份。 2、需要手动在HDFS根目录上新建名称为directory的目录。
3.2 拷贝配置文件
将/opt/module/hadoop-3.2.1/etc/hadoop/目录下的core-site.xml,hdfs-site.xml拷贝至/opt/module/spark-3.0.0-bin-hadoop3.2/conf目录中。
将/opt/module/apache-hive-3.1.2-bin/conf/目录下的hive-site.xml拷贝至/opt/module/spark-3.0.0-bin-hadoop3.2/conf目录中。
4、分发
快捷分发。
1、检查其他节点是否有/opt/module目录。
2、进入/opt/module目录,执行scp -r spark-3.0.0-bin-hadoop3.2 节点hostname:$PWD
5、启动
1、启动
进入spark-3.0.0-bin-hadoop3.2/sbin目录,执行启动集群脚本。
[root@slave4 sbin]# ./start-all.sh
2、检查
浏览器访问http://填入Spark主节点IP:8080查看worker个数,状态等信息。
6、附录
6.1 如果之前安装过2.3.x或者2.4.x版本
如果之前机器装过2.3.x或者2.4.x版本的spark,那么需要删除之前的环境变量,配置成3.0.0版本的环境变量。
