一、Spark生态

image.png

二、运行架构

image.png

三、概念

Application

Spark上运行的应用。Application中包含一个驱动器进程和集群的多个执行器进程。

Driver Program

运行main()方法并创建SparkContex(对象)的进程。

Cluster Manager

用于在集群上申请资源的外部服务(如:独立部署的集群管理器、Mesos、Yarn)。、

Worker Node

集群上运行应用程序代码的任意一个节点。

Executor(执行器)

在集群工作节点上为某个应用启动的工作进程,该进程负责运行计算任务,并为应用程序存储数据。

Task(任务)

被分配到一个Executor上的计算单元。

Job(作业)

一个并行计算作业,由一组任务组成,并由Spark的行动算子(如:save、collect)触发启动。

Stage

每个Job可划分为更小的Task集合,每组任务被称为Stage。