什么是RDD

1.概念

  • 一个Spark程序,可以由多个RDD组成,多个RDD的联系用到了装饰器模式(IO流)
  • RDD是不保存数据的,但是IO流可以临时保存一部分数据

2.图解

image.png

image.png

3.特点

3.1.弹性:

  • 存储的弹性:内存和磁盘的自动切换
  • 容错的弹性:数据丢失可以自动恢复(当一个节点挂掉了不要急,因为直到数据源是哪个分 区是哪个还能够重写读取)
  • 计算的弹性:计算出错重试机制(可以重写计算)
  • [x] 分区的弹性:可以根据需要重新分区

    1. <br /> 3.2.分布式:<br />数据存储在大数据集群不同节点上

3.3.数据集:
RDD封装了计算逻辑,并不保存数据

3.4.数据抽象:
RDD是一个抽象类

3.5.不可变:
RDD封装了计算的逻辑,不可变。想改变,只能产生新的RDD,在新的RDD 里面封装计算逻辑

3.6.可分区、可并行计算