一个大统一的软件栈
包含多个紧密集成的组件
Spark core 任务调度、内存管理、错误恢复、与存储系统交互
RDD弹性分布式数据集,分布在多个计算节点上可以并行操作的元素集合,是Spark的主要编程抽象
SparkSQL 用来操作结构化数据的程序包
- SPark Streaming 对实时数据进行流式计算的组件
- MLlib 机器学习库 各种机器
- GraphX 扩展了RDD的API, 可以创建顶点和边都包含任意属性的有向图,支持图的各种算法和操作
- 集群管理器 Hadoop YARN 或APache Mesos或Spark自带的独立调度器
用户和用途
Spark简史
为交互式查询和迭代算法而设计的
支持内存式存储和高效的容错机制
SPark支持的存储格式
HDFS、本地文件、Hive、Hbase、亚马逊S3、Cassandra等