2.2 RDD依赖关系
RDD中不会保存数据,只会保存依赖关系的执行逻辑、自己的执行逻辑和数据结构
val RDD4: RDD[String] = sc.textFile("datas/apache.log")
val RDD3: RDD[String] = RDD4.flatMap(....)
val RDD2: RDD[(String,Int)] = RDD3.map(....)
val RDD1: RDD[(String,Int)] = RDD2.reduceByKey(....)
提高容错性:当出错的时候能够通过保存的 依赖等信息 进行重新执行整个流程
提高执行效率:在执行first()时,只是扫描文件直到找到第一个匹配的行为止,而不是读取整个文件。