一、兼容性说明

注意:官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5,所以需要我们重新编译Hive3.1.2版本。
编译步骤:官网下载Hive3.1.2源码,修改pom文件中引用的Spark版本为3.0.0,如果编译通过,直接打包获取jar包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取jar包。

二、在Hive所在节点部署Spark

如果之前已经部署了Spark,则该步骤可以跳过,但要检查SPARK_HOME的环境变量配置是否正确。

2.1 上传并解压解压Spark

  1. tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /usr/local/src/
  2. mv /usr/local/src/spark-3.0.0-bin-hadoop3.2 /usr/local/src/spark

2.2 配置SPARK_HOME环境变量

  1. vim /etc/profile
  1. # SPARK_HOME
  2. export SPARK_HOME=/usr/local/src/spark
  3. export PATH=$PATH:$SPARK_HOME/bin

2.3 在hive中创建spark配置文件

vim /usr/local/src/hive/conf/spark-defaults.conf
spark.master                    yarn
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://master:9000/spark-history
park.driver.memory              1g
spark.executor.memory           1g

2.4 在HDFS创建如下路径,用于存储历史日志

hadoop fs -mkdir /spark-history

2.5 向HDFS上传Spark纯净版jar包

说明:由于Spark3.0.0非纯净版默认支持的是hive2.3.7版本,直接使用会和安装的Hive3.1.2出现兼容性问题。所以采用Spark纯净版jar包,不包含hadoop和hive相关依赖,避免冲突。
Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。

2.6 上传并解压spark-3.0.0-bin-without-hadoop.tgz

tar -zxvf spark-3.0.0-bin-without-hadoop.tgz

2.7 上传Spark纯净版jar包到HDFS

hadoop fs -mkdir /spark-jars
hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars

2.8 修改hive-site.xml文件

vim /usr/local/src/hive/conf/hive-site.xml
<!--Hive和Spark连接超时时间-->
    <property>
        <name>hive.spark.client.connect.timeout</name>
        <value>100000ms</value>
    </property>
    <!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
    <property>
        <name>spark.yarn.jars</name>
        <value>hdfs://master:9000/spark-jars/*</value>
    </property>

    <!--Hive执行引擎-->
    <property>
        <name>hive.execution.engine</name>
        <value>spark</value>
    </property>

2.9 修改 spark-env.sh 文件

vim /usr/local/src/spark/conf/spark-env.sh
SPARK_MASTER_WEBUI_PORT=8989
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=master,slave1,slave2
-Dspark.deploy.zookeeper.dir=/spark"
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
export YARN_CONF_DIR=/usr/local/src/hadoop/etc/hadoop

三、测试 Hive on Spark

3.1 启动 Hive

hive

3.2 创建测试表

create table student(id int,name string);

3.3 插入数据

insert into table student values(1,'abc');

image.png