spark基础 - Spark基础-存储 - 《Spark 基础和调优》

Spark存储
- Spark内存区域划分
- 内存管理

Spark存储

包括Shuffle中间文件（磁盘），RDD Cache（内存或磁盘）以及广播变量（内存）

Spark内存区域划分

Spark基础-存储 - 图1
Reserved Memory: 固定为300M，不受开发者控制，是Spark预留的，用来存储各种Spark内部对象的内存区域
User Memory: 存储开发者自定义的数据结构，例如RDD算子中引用的数组，列表，映射
Execution Memory: 用来执行分布式任务，包括数据的转换，过滤，映射，排序，聚合的内存消耗
Storage Memory: 缓存分布式数据集，如RDD Cache（RDD物化到内存中的副本），广播变量等

内存区域的相互转化：如若没有缓存任何RDD或广播变量，将未使用的Storage Memory转化成Execution Memory
1.如果对方的内存空间有空闲，双方可以互相抢占；
2.对于 Storage Memory 抢占的 Execution Memory 部分，当分布式任务有计算需要时，Storage Memory 必须立即归还抢占的内存，涉及的缓存数据要么落盘、要么清除；
3.对于 Execution Memory 抢占的 Storage Memory 部分，即便 Storage Memory 有收回内存的需要，也必须要等到分布式任务执行完毕才能释放。

内存管理

Driver进程的BlockManagerMaster
Executor进程的BlockManager，MemoryStore，DiskStore
“一言堂”，BlockManager想要获得其他BlockManager的信息，必须要通过BlockManagerMaster得到
元数据本身是由driver的blockManageMaster来管理，当每个excutor创建的时候也会创建相对应的数据集管理服务blockManagerSlave，当使用某一些block时候，slave端会创建block并向master端去注册block，同理删除某些block时候，master向slave端发出申请，再有slave来删除对应的block数据。由此可见，实际上物理数据都excutor上，数据的关系管理由driver端来管理。
Spark基础-存储 - 图2

BlockManager的核心职责，在于管理数据块的元数据Meta data
Spark基础-存储 - 图3
MemoryStore内存数据访问
Spark基础-存储 - 图4
BlockId不仅仅是一个ID字符，而是一种记录Block原数据的数据结构
MemoryEntry是对象，通往数据实体的地址，承载数据实体，这个数据实体可以是某个RDD的数据分区，或是广播变量
以RDD Cache为例：
1.以数据分区为粒度，计算RDD执行结果，生成对应的数据块
2.将数据块封装到MemoryEntry，同时创建数据块元数据BlockId
3.将（BlockId， MemoryEntry）键值对添加到LinkedHashMap中

DiskStore磁盘数据访问：通过DiskBlockManager类对象，getFile方法以BlockId为参数，返回磁盘文件
以Shuffle为例：
Spark基础-存储 - 图5