RDD算子
![]() |
![]() |
![]() |
|---|---|---|
序列化
Q:
A:

闭包检测
Kryo序列化框架

依赖关系



阶段划分

源码解析 collect()
持久化
Q:重复读取

A:

mapRDD.cache()- 血缘关系中添加新依赖
mapRDD.persist(StorageLevel.DISK_ONLY)mapRDD.checkpoint()- 切断血缘关系,建立新血缘关系
RDD分区器

rdd.partitionBy(New Mypartitioner)
累加器
Q:返回不了sum

A:

- 少加:没有行动算子
- 多加:多个行动算子
自定义累加器
广播变量
Q:出现笛卡尔乘积!!影响shuffle性能

A:







