二、SparkCore - 《Spark知识学习》

1. 什么是 RDD
2. 核心属性
3. RDD的持久化
4. 广播变量
5. 累加器
6. Spark内核调度
7. 执行原理

Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：
➢ RDD : 弹性分布式数据集
➢ 累加器：分布式共享只写变量
➢ 广播变量：分布式共享只读变量

为什么需要RDD？
图片.png

1. 什么是 RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
➢ 弹性 Resilient

存储的弹性：内存与磁盘的自动切换；
容错的弹性：数据丢失可以自动恢复；
计算的弹性：计算出错重试机制；
分片的弹性：可根据需要重新分片。

➢ 分布式 Distributed：数据存储在大数据集群不同节点上，分布式存储，可用于分布式计算
➢ 数据集 Dataset：RDD 封装了计算逻辑，并不保存数据
➢ 数据抽象：RDD 是一个抽象类，需要子类具体实现
➢ 不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑
➢ 可分区、并行计算

2. 核心属性

五大特性：

分区列表

RDD 数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。
RDD的分区是RDD数据存储的最小单位，一份RDD的数据本质上是分割成多个分区。

分区计算函数

Spark 在计算时，是使用分区函数对每一个分区进行计算
RDD的方法会作用到在其所有分区上。

RDD 之间的依赖关系 （血缘关系）

RDD 是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个 RDD 建立依赖关系，RDD的迭代计算关系

分区器（可选）

当数据为 KV 类型数据时，可以通过设定分区器自定义数据的分区

首选位置（可选）

计算数据时，可以根据计算节点的状态选择不同的节点位置进行计算

RDD算子：
分布式对象的API叫做算子。
Spark处理时分为两种操作，一种转换 transformation 操作、一种动作 action 操作

transformation 操作常用算子如下：返回值仍然是一个RDD对象，没有action是不工作的

Map、MapPartitions、FlatMap、Filter、distinct、sortBy、union、reduceByKey、groupByKey、sortByKey、join

action 操作常用算子如下：返回值不是RDD

reduce、collect、count、save、take、aggregate、countByKey等。
图片.png

3. RDD的持久化

3.1 RDD的数据是过程数据

图片.png

3.2 RDD的缓存

图片.png

3.3 RDD的CheckPoint

图片.png
RDD的数据将被CheckPoint到HDFS中，集中收集各个分区数据进行存储，而缓存是分散存储。

4. 广播变量

图片.png

5. 累加器

累加器 accumulators：累加器支持在所有不同节点之间进行累加计算(比如计数或者求和)。
图片.png

6. Spark内核调度

6.1 DAG

图片.png

6.2 宽窄依赖和阶段划分

图片.png

6.3 内存迭代模型

二、SparkCore - 图16 二、SparkCore - 图17 二、SparkCore - 图18

6.4 Spark并行度

Spark的并行：在同一时间内，有多少个task在同时执行
图片.png
先有task再有分区，一个分区只会被一个task处理，一个task可以处理多个RDD

6.5 Spark任务调度

图片.png

6.6 Spark运行

图片.png

7. 执行原理

从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。
Spark 框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计算。最后得到计算结果。
RDD 是 Spark 框架中用于数据处理的核心模型，接下来我们看看，在 Yarn 环境中，RDD的工作原理:
1) 启动 Yarn 集群环境
图片.png
2) Spark 通过申请资源创建调度节点和计算节点

3) Spark 框架根据需求将计算逻辑根据分区划分成不同的任务

4) 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

从以上流程可以看出 RDD 在整个流程中主要用于将逻辑进行封装，并生成 Task 发送给 Executor 节点执行计算，接下来我们就一起看看 Spark 框架中 RDD 是具体是如何进行数据处理的。