一、Spark生态
二、运行架构
三、概念
Application
Spark上运行的应用。Application中包含一个驱动器进程和集群的多个执行器进程。
Driver Program
运行main()方法并创建SparkContex(对象)的进程。
Cluster Manager
用于在集群上申请资源的外部服务(如:独立部署的集群管理器、Mesos、Yarn)。、
Worker Node
集群上运行应用程序代码的任意一个节点。
Executor(执行器)
在集群工作节点上为某个应用启动的工作进程,该进程负责运行计算任务,并为应用程序存储数据。
Task(任务)
被分配到一个Executor上的计算单元。
Job(作业)
一个并行计算作业,由一组任务组成,并由Spark的行动算子(如:save、collect)触发启动。
Stage
每个Job可划分为更小的Task集合,每组任务被称为Stage。