2.2 RDD依赖关系

image.png

image.png

RDD中不会保存数据,只会保存依赖关系的执行逻辑、自己的执行逻辑和数据结构

  1. val RDD4: RDD[String] = sc.textFile("datas/apache.log")
  2. val RDD3: RDD[String] = RDD4.flatMap(....)
  3. val RDD2: RDD[(String,Int)] = RDD3.map(....)
  4. val RDD1: RDD[(String,Int)] = RDD2.reduceByKey(....)

image.png

提高容错性:当出错的时候能够通过保存的 依赖等信息 进行重新执行整个流程
提高执行效率:在执行first()时,只是扫描文件直到找到第一个匹配的行为止,而不是读取整个文件。