Initializing Spark

一个Spark程序要做的第一件事就是新建一个SparkContext对象,它将告诉Spark如何访问一个集群。为了一个SparkContext对象,你需要先构建一个SparkConf,它包含了你的应用的信息。

一个JVM上只可能有一个SparkContext是激活的。你在创建一个新的SparkContext之前必须stop()一个活跃的SparkContext。

  1. val conf = new SparkConf().setAppName(appName).setMaster(master)
  2. new SparkContext(conf)

这个appName参数是用来在集群可视化UI上显示的应用名称。master是一个Spark,Mesos or YARN cluster URL,或者是一个特殊的”local”字符串来运行在本地模式。实践里,当在集群下运行,你是不想去在程序里硬编码master,而是使用spark-submit启动程序,并获取(master)。然而,对于本地测试或单元测试,你可以传递”local”来运行Spark。