七、RDD 依赖关系 - 《SparkCore》

1) RDD 血缘关系
2) RDD 依赖关系
3) RDD 窄依赖
4) RDD 宽依赖
5) RDD 阶段划分
6) RDD 阶段划分源码
7) RDD 任务划分
8) RDD 任务划分源码

1) RDD 血缘关系

RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。将创建 RDD 的一系列 Lineage（血统）记录下来，以便恢复丢失的分区。RDD 的 Lineage 会记录 RDD 的元数据信息和转换行为，当该 RDD 的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

2) RDD 依赖关系

这里所谓的依赖关系，其实就是两个相邻 RDD 之间的关系

3) RDD 窄依赖

窄依赖表示每一个父(上游)RDD 的 Partition 最多被子（下游）RDD 的一个 Partition 使用，窄依赖我们形象的比喻为独生子女。
class OneToOneDependencyT extends NarrowDependencyT

4) RDD 宽依赖

宽依赖表示同一个父（上游）RDD 的 Partition 被多个子（下游）RDD 的 Partition 依赖，会引起 Shuffle，总结：宽依赖我们形象的比喻为多生。
class ShuffleDependencyK: ClassTag, V: ClassTag, C: ClassTag
extends Dependency[Product2[K, V]]

5) RDD 阶段划分

DAG（Directed Acyclic Graph）有向无环图是由点和线组成的拓扑图形，该图形具有方向，不会闭环。例如，DAG 记录了 RDD 的转换过程和任务的阶段。

6) RDD 阶段划分源码

try {
 // New stage creation may throw an exception if, for example, jobs are run on 
a
 // HadoopRDD whose underlying HDFS files have been deleted.
 finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)
} catch {
 case e: Exception =>
 logWarning("Creating new stage failed due to exception - job: " + jobId, e)
 listener.jobFailed(e)
 return
}
……
private def createResultStage(
 rdd: RDD[_],
 func: (TaskContext, Iterator[_]) => _,
 partitions: Array[Int],
 jobId: Int,
 callSite: CallSite): ResultStage = {
val parents = getOrCreateParentStages(rdd, jobId)
val id = nextStageId.getAndIncrement()
val stage = new ResultStage(id, rdd, func, partitions, parents, jobId, callSite)
stageIdToStage(id) = stage
updateJobIdStageIdMaps(jobId, stage)
stage
}
……
private def getOrCreateParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] 
= {
getShuffleDependencies(rdd).map { shuffleDep =>
 getOrCreateShuffleMapStage(shuffleDep, firstJobId)
}.toList
}
……
private[scheduler] def getShuffleDependencies(
 rdd: RDD[_]): HashSet[ShuffleDependency[_, _, _]] = {
val parents = new HashSet[ShuffleDependency[_, _, _]]
val visited = new HashSet[RDD[_]]
val waitingForVisit = new Stack[RDD[_]]
waitingForVisit.push(rdd)
while (waitingForVisit.nonEmpty) {
 val toVisit = waitingForVisit.pop()
 if (!visited(toVisit)) {
 visited += toVisit
 toVisit.dependencies.foreach {
 case shuffleDep: ShuffleDependency[_, _, _] =>
 parents += shuffleDep
 case dependency =>
 waitingForVisit.push(dependency.rdd)
 }
 } }
parents
}

7) RDD 任务划分

RDD 任务切分中间分为：Application、Job、Stage 和 Task

Application：初始化一个 SparkContext 即生成一个 Application；
Job：一个 Action 算子就会生成一个 Job；
Stage：Stage 等于宽依赖(ShuffleDependency)的个数加 1；
Task：一个 Stage 阶段中，最后一个 RDD 的分区个数就是 Task 的个数。

注意：Application->Job->Stage->Task 每一层都是 1 对 n 的关系。

8) RDD 任务划分源码

val tasks: Seq[Task[_]] = try { 
 stage match { 
 case stage: ShuffleMapStage => 
partitionsToCompute.map { id => 
 val locs = taskIdToLocations(id) 
 val part = stage.rdd.partitions(id) 
 new ShuffleMapTask(stage.id, stage.latestInfo.attemptId, 
 taskBinary, part, locs, stage.latestInfo.taskMetrics, properties, 
Option(jobId), 
 Option(sc.applicationId), sc.applicationAttemptId) 
 } 
 case stage: ResultStage => 
 partitionsToCompute.map { id => 
 val p: Int = stage.partitions(id) 
 val part = stage.rdd.partitions(p) 
 val locs = taskIdToLocations(id) 
 new ResultTask(stage.id, stage.latestInfo.attemptId, 
 taskBinary, part, locs, id, properties, stage.latestInfo.taskMetrics, 
 Option(jobId), Option(sc.applicationId), sc.applicationAttemptId) 
 } 
 } 
…… 
val partitionsToCompute: Seq[Int] = stage.findMissingPartitions() 
…… 
override def findMissingPartitions(): Seq[Int] = { 
mapOutputTrackerMaster 
 .findMissingPartitions(shuffleDep.shuffleId) 
 .getOrElse(0 until numPartitions) 
}