Hive on Spark配置 - 《大数据学习笔记》

一、兼容性说明
二、在Hive所在节点部署Spark
2.1 上传并解压解压Spark
2.2 配置SPARK_HOME环境变量
2.3 在hive中创建spark配置文件
2.4 在HDFS创建如下路径，用于存储历史日志
2.5 向HDFS上传Spark纯净版jar包
2.6 上传并解压spark-3.0.0-bin-without-hadoop.tgz
2.7 上传Spark纯净版jar包到HDFS
2.8 修改hive-site.xml文件
2.9 修改 spark-env.sh 文件
三、测试 Hive on Spark
3.1 启动 Hive
3.2 创建测试表
3.3 插入数据

一、兼容性说明

注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5，所以需要我们重新编译Hive3.1.2版本。
编译步骤：官网下载Hive3.1.2源码，修改pom文件中引用的Spark版本为3.0.0，如果编译通过，直接打包获取jar包。如果报错，就根据提示，修改相关方法，直到不报错，打包获取jar包。

二、在Hive所在节点部署Spark

如果之前已经部署了Spark，则该步骤可以跳过，但要检查SPARK_HOME的环境变量配置是否正确。

2.1 上传并解压解压Spark

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /usr/local/src/
mv /usr/local/src/spark-3.0.0-bin-hadoop3.2 /usr/local/src/spark

2.2 配置SPARK_HOME环境变量

vim /etc/profile

# SPARK_HOME
export SPARK_HOME=/usr/local/src/spark
export PATH=$PATH:$SPARK_HOME/bin

2.3 在hive中创建spark配置文件

vim /usr/local/src/hive/conf/spark-defaults.conf

spark.master                    yarn
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://master:9000/spark-history
park.driver.memory              1g
spark.executor.memory           1g

2.4 在HDFS创建如下路径，用于存储历史日志

hadoop fs -mkdir /spark-history

2.5 向HDFS上传Spark纯净版jar包

说明：由于Spark3.0.0非纯净版默认支持的是hive2.3.7版本，直接使用会和安装的Hive3.1.2出现兼容性问题。所以采用Spark纯净版jar包，不包含hadoop和hive相关依赖，避免冲突。
Hive任务最终由Spark来执行，Spark任务资源分配由Yarn来调度，该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径，这样集群中任何一个节点都能获取到。

2.6 上传并解压spark-3.0.0-bin-without-hadoop.tgz

tar -zxvf spark-3.0.0-bin-without-hadoop.tgz

2.7 上传Spark纯净版jar包到HDFS

hadoop fs -mkdir /spark-jars
hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars

2.8 修改hive-site.xml文件

vim /usr/local/src/hive/conf/hive-site.xml

<!--Hive和Spark连接超时时间-->
    <property>
        <name>hive.spark.client.connect.timeout</name>
        <value>100000ms</value>
    </property>
    <!--Spark依赖位置（注意：端口号8020必须和namenode的端口号一致）-->
    <property>
        <name>spark.yarn.jars</name>
        <value>hdfs://master:9000/spark-jars/*</value>
    </property>

    <!--Hive执行引擎-->
    <property>
        <name>hive.execution.engine</name>
        <value>spark</value>
    </property>

2.9 修改 spark-env.sh 文件

vim /usr/local/src/spark/conf/spark-env.sh

SPARK_MASTER_WEBUI_PORT=8989
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=master,slave1,slave2
-Dspark.deploy.zookeeper.dir=/spark"
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
export YARN_CONF_DIR=/usr/local/src/hadoop/etc/hadoop

三、测试 Hive on Spark

3.1 启动 Hive

hive

3.2 创建测试表

create table student(id int,name string);

3.3 插入数据

insert into table student values(1,'abc');