在写Spark Job的过程中往往会有第三方的依赖,如果是在IDE里开发,我们可以在pom.xml里添加依赖,那么在Zeppelin里如何添加第三方依赖呢?主要有以下三种方法 (其实这三个配置都是标准的spark配置选项)

  • spark.jars
  • spark.jars.packages
  • spark.files

spark.jars

spark.jars 可以用来指定 jar文件,多个jar包可以用逗号隔开,如下图示例

spark.jars.packages

spark.jars.packages 可以用package的形式来指定依赖包,spark会动态下载这些package,然后放到classpath里,多个package以逗号分隔,如下图示例

spark.files

spark.files 用来指定 file文件,多个file文件以逗号分隔,如下图示例

使用方式

image.png

  • 如上图所示做好配置之后,在启动spark解释器之前(即第一次运行spark、pyspark、sparkR或者sparkSQL相关代码之前)运行spark.conf段落即可对将要启动的spark解释器进行配置,从而加载自己想要依赖的第三方资源
  • 另外这些配置也支持通过管理员在Spark解释器配置页面进行全局配置