Spark-on-YARN

这是spark运行的一种模式:
把我们的spark程序,运行在yarn这个资源调度平台上。
—master spark://hdp-01:7077 standalone模式
—master yarn yarn模式
standalone集群不再需要了。

1 官方文档

http://spark.apache.org/docs/latest/running-on-yarn.html

2 配置安装

  1. 安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。

补充配置一:
yarn默认情况下,只根据内存调度资源,所以spark on yarn运行的时候,即使通过—executor-cores指定vcore个数为N,但是在yarn的资源管理页面上看到使用的vcore个数还是1. 相关配置在capacity-scheduler.xml 文件:

yarn.scheduler.capacity.resource-calculator

org.apache.hadoop.yarn.util.resource.DominantResourceCalculator

补充配置二:
修改所有yarn节点的yarn-site.xml,在该文件中添加如下配置

yarn.nodemanager.pmem-check-enabled
false


yarn.nodemanager.vmem-check-enabled
false

如果不配置这两个选项,在spark-on-yarn的client模式下,如果
内存不足,报错如下:
spark-on-yarn - 图1
分析原因:内存溢出
说明:yarn.nodemanager.vmem-check-enabled是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true。

把配置分发到各台节点上:

# cd /root/apps/hadoop/etc/hadoop
[root@hdp-01 hadoop]# for i in 2 3 ;do scp capacity-scheduler.xml yarn-site.xml hdp-0$i:pwd;done
  1. 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序将作为YARN的客户端用于提交任务

在spark-env.sh中配置
export JAVA_HOME=/usr/local/jdk1.8.0_131
export HADOOP_CONF_DIR=/root/apps/hadoop/etc/hadoop
该配置文件的作用,就是让spark程序可以找到yarn。

或者在/etc/profile中,配置 HADOOP_CONF_DIR
spark-on-yarn - 图2

可以使用的是HADOOP_CONF_DIR 或者 YARN_CONF_DIR
spark-on-yarn - 图3

把配置分发到各台节点上。
for i in 2 3 ;do scp /etc/profile hdp-0$i:/etc;done
然后 重新source /etc/profile

  1. 启动HDFS和YARN

3 运行模式(cluster模式和client模式)

  1. cluster模式

./bin/spark-submit —class org.apache.spark.examples.SparkPi \
—master yarn \
—deploy-mode cluster \
—driver-memory 1g \
—executor-memory 1g \
—executor-cores 2 \
—queue default \
lib/spark-examples*.jar \
100

spark-submit —master yarn —deploy-mode cluster —class org.apache.spark.examples.SparkPi /root/apps/spark-2.2.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.2.0.jar 1000

cluster模式下的进程信息:
spark-on-yarn - 图4
spark-on-yarn - 图5
sparkSubmit: 仅仅是负责提交任务,提交完任务,功能结束。(standalone中,driver和sparksubmit在一起)
之前说的dag,stage,生成task,都是在AppMaster中完成的,(yarn-cluster模式下,driver是在AppMaster中)

资源可以DIY:
spark-submit —master yarn —deploy-mode cluster —driver-memory 1g —driver-cores 2 —executor-cores 2 —executor-memory 1g —num-executors 100 —class org.apache.spark.examples.SparkPi /root/apps/spark-2.2.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.2.0.jar 1000

—num-executors: 总的executor的个数

没有standalone模式,依然可以查看spark任务的DAG图
spark-on-yarn - 图6


  1. client模式

./bin/spark-submit —class org.apache.spark.examples.SparkPi \
—master yarn \
—deploy-mode client \
—driver-memory 1g \
—executor-memory 1g \
—executor-cores 2 \
—queue default \
lib/spark-examples*.jar \
10

client模式下,没有了AppMaster,替代的是ExecutorLauncher,功能类似于AppMaster
spark-on-yarn - 图7
spark-on-yarn - 图8

spark-on-yarn - 图9
spark-shell必须使用client模式
./bin/spark-shell —master yarn —deploy-mode client

  1. 两种模式的区别

cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。

client模式:Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-shell)

4 原理

cluster模式:
spark-on-yarn - 图10
Spark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用。具体过程:

  1. 由client向ResourceManager提交请求,并上传jar到HDFS上
    这期间包括四个步骤:
    a).连接到RM
    b).从RM的ASM(ApplicationsManager )中获得metric、queue和resource等信息。
    c). upload app jar and spark-assembly jar
    d).设置运行环境和container上下文(launch-container.sh等脚本)

  2. ResouceManager向NodeManager申请资源,创建Spark ApplicationMaster(每个SparkContext都有一个ApplicationMaster)
    3. NodeManager启动ApplicationMaster,并向ResourceManager AsM注册
    4. ApplicationMaster从HDFS中找到jar文件,启动SparkContext、DAGscheduler和YARN Cluster Scheduler
    5. ResourceManager向ResourceManager AsM注册申请container资源
    6. ResourceManager通知NodeManager分配Container,这时可以收到来自ASM关于container的报告。(每个container对应一个executor)
    7. Spark ApplicationMaster直接和container(executor)进行交互,完成这个分布式任务。

client模式:
spark-on-yarn - 图11
在client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executor container进行交互,并将最后的结果汇总。结束掉终端,相当于kill掉这个spark应用。一般来说,如果运行的结果仅仅返回到terminal上时需要配置这个。

客户端的Driver将应用提交给Yarn后,Yarn会先后启动ApplicationMaster和executor,另外ApplicationMaster和executor都 是装载在container里运行,container默认的内存是1G,ApplicationMaster分配的内存是driver- memory,executor分配的内存是executor-memory。同时,因为Driver在客户端,所以程序的运行结果可以在客户端显示,Driver以进程名为SparkSubmit的形式存在。

如果使用spark on yarn 提交任务,一般情况,优先使用cluster模式,该模式,Driver运行在集群中,其实就是运行在ApplicattionMaster这个进程中,如果该进程出现问题,yarn会重启ApplicattionMaster(Driver),SparkSubmit的功能就是为了提交任务。

如果使用交互式的命令行,必须用Client模式,该模式,Driver是运行在SparkSubmit进程中,因为收集的结果,必须返回到命令行(即启动命令的那台机器上),该模式,一般测试,或者运行spark-shell、spark-sql这个交互式命令行时使用

怎么查看spark-on-yarn的任务:
可以查看所有的yarn application命令的参数
spark-on-yarn - 图12

如果杀死一个application
先通过yarn application -list 查看当前yarn上的所有任务
然后通过 yarn application -kill appId 杀死一个任务。
yarn application -kill application_1517581724315_0007