RDD算子

image.png image.png image.png

序列化

Q:
image.png
A:
image.pngimage.png

闭包检测

image.png
image.png

Kryo序列化框架

image.png

依赖关系

image.png
image.png
image.png

阶段划分

image.png

源码解析 collect()

**
image.png
image.png

持久化

Q:重复读取

image.png

A:

image.png

  • mapRDD.cache()
    • 血缘关系中添加新依赖
  • mapRDD.persist(StorageLevel.DISK_ONLY)
  • mapRDD.checkpoint()
    • 切断血缘关系,建立新血缘关系

RDD分区器

image.png
rdd.partitionBy(New Mypartitioner)

累加器

Q:返回不了sum
image.pngimage.png
A:
image.pngimage.png

  • 少加:没有行动算子
  • 多加:多个行动算子

自定义累加器
image.png

广播变量

Q:出现笛卡尔乘积!!影响shuffle性能

image.png
A:
image.png
image.png

image.png