什么是RDD
1.概念
- 一个Spark程序,可以由多个RDD组成,多个RDD的联系用到了装饰器模式(IO流)
- RDD是不保存数据的,但是IO流可以临时保存一部分数据
2.图解
3.特点
3.1.弹性:
- 存储的弹性:内存和磁盘的自动切换
- 容错的弹性:数据丢失可以自动恢复(当一个节点挂掉了不要急,因为直到数据源是哪个分 区是哪个还能够重写读取)
- 计算的弹性:计算出错重试机制(可以重写计算)
[x] 分区的弹性:可以根据需要重新分区
<br /> 3.2.分布式:<br />数据存储在大数据集群不同节点上
3.3.数据集:
RDD封装了计算逻辑,并不保存数据
3.4.数据抽象:
RDD是一个抽象类
3.5.不可变:
RDD封装了计算的逻辑,不可变。想改变,只能产生新的RDD,在新的RDD 里面封装计算逻辑
3.6.可分区、可并行计算