• 中间结果放内存 + DAG(有向无环图) 所以快

image.png

创建RDD

  • 集合创建
  • 文件创建
  • hdfs创建

    Transformation & Action

  • 两种RDD操作

  • Transformation的特性:lazy
  • Action触发之前所有Transformation执行

    常用Transformation

    image.png

    Accumulator累加变量

    image.png

    持久化

    cache() = persist(MEMORY_ONLY)
    数据放入内存中缓存

Broadcast Variable广播变量

  • 每个节点拷贝一份
  • 广播变量只读

image.png

sortByKey

image.png

stage划分

image.png
image.png

  • 三个stage
  • 根据宽依赖划分

    Job的三种提交模式

    image.png

shuffle

未优化的Hash Based Shuffle

image.png

优化后的HashBasedShuffle(合并buffer)

image.png

sort-based shuffle

image.png