批处理 迭代算法 交互式查询 流处理

一个大统一的软件栈

包含多个紧密集成的组件

  • Spark core 任务调度、内存管理、错误恢复、与存储系统交互

    RDD弹性分布式数据集,分布在多个计算节点上可以并行操作的元素集合,是Spark的主要编程抽象

  • SparkSQL 用来操作结构化数据的程序包

  • SPark Streaming 对实时数据进行流式计算的组件
  • MLlib 机器学习库 各种机器
  • GraphX 扩展了RDD的API, 可以创建顶点和边都包含任意属性的有向图,支持图的各种算法和操作
  • 集群管理器 Hadoop YARN 或APache Mesos或Spark自带的独立调度器

  • 用户和用途

    Spark简史

    为交互式查询和迭代算法而设计的
    支持内存式存储和高效的容错机制
    SPark支持的存储格式
    HDFS、本地文件、Hive、Hbase、亚马逊S3、Cassandra等