一、兼容性说明
注意:官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5,所以需要我们重新编译Hive3.1.2版本。
编译步骤:官网下载Hive3.1.2源码,修改pom文件中引用的Spark版本为3.0.0,如果编译通过,直接打包获取jar包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取jar包。
二、在Hive所在节点部署Spark
如果之前已经部署了Spark,则该步骤可以跳过,但要检查SPARK_HOME的环境变量配置是否正确。
2.1 上传并解压解压Spark
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /usr/local/src/
mv /usr/local/src/spark-3.0.0-bin-hadoop3.2 /usr/local/src/spark
2.2 配置SPARK_HOME环境变量
vim /etc/profile
# SPARK_HOME
export SPARK_HOME=/usr/local/src/spark
export PATH=$PATH:$SPARK_HOME/bin
2.3 在hive中创建spark配置文件
vim /usr/local/src/hive/conf/spark-defaults.conf
spark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/spark-history
park.driver.memory 1g
spark.executor.memory 1g
2.4 在HDFS创建如下路径,用于存储历史日志
hadoop fs -mkdir /spark-history
2.5 向HDFS上传Spark纯净版jar包
说明:由于Spark3.0.0非纯净版默认支持的是hive2.3.7版本,直接使用会和安装的Hive3.1.2出现兼容性问题。所以采用Spark纯净版jar包,不包含hadoop和hive相关依赖,避免冲突。
Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。
2.6 上传并解压spark-3.0.0-bin-without-hadoop.tgz
tar -zxvf spark-3.0.0-bin-without-hadoop.tgz
2.7 上传Spark纯净版jar包到HDFS
hadoop fs -mkdir /spark-jars
hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars
2.8 修改hive-site.xml文件
vim /usr/local/src/hive/conf/hive-site.xml
<!--Hive和Spark连接超时时间-->
<property>
<name>hive.spark.client.connect.timeout</name>
<value>100000ms</value>
</property>
<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
<name>spark.yarn.jars</name>
<value>hdfs://master:9000/spark-jars/*</value>
</property>
<!--Hive执行引擎-->
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
2.9 修改 spark-env.sh 文件
vim /usr/local/src/spark/conf/spark-env.sh
SPARK_MASTER_WEBUI_PORT=8989
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=master,slave1,slave2
-Dspark.deploy.zookeeper.dir=/spark"
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
export YARN_CONF_DIR=/usr/local/src/hadoop/etc/hadoop
三、测试 Hive on Spark
3.1 启动 Hive
hive
3.2 创建测试表
create table student(id int,name string);
3.3 插入数据
insert into table student values(1,'abc');