Spark数据分析导论

浏览 428 扫码分享 2022-07-24 18:33:06

一个大统一的软件栈
用户和用途
Spark简史

批处理迭代算法交互式查询流处理

一个大统一的软件栈

包含多个紧密集成的组件

Spark core 任务调度、内存管理、错误恢复、与存储系统交互

RDD弹性分布式数据集,分布在多个计算节点上可以并行操作的元素集合，是Spark的主要编程抽象
SparkSQL 用来操作结构化数据的程序包
SPark Streaming 对实时数据进行流式计算的组件
MLlib 机器学习库各种机器
GraphX 扩展了RDD的API，可以创建顶点和边都包含任意属性的有向图，支持图的各种算法和操作
集群管理器 Hadoop YARN 或APache Mesos或Spark自带的独立调度器
用户和用途
Spark简史
为交互式查询和迭代算法而设计的
支持内存式存储和高效的容错机制
SPark支持的存储格式
HDFS、本地文件、Hive、Hbase、亚马逊S3、Cassandra等

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录