Spark

浏览 52 扫码分享 2023-11-23 13:06:06

简介

简介

快速高效

Spark可以将中间结果写到本地磁盘或将中间结果写到本地磁盘或将中间cache到内存中节省了大量的网络IO和磁盘IO开销并且Spark使用更先进的DAG任务调度思想可以将多个计算逻辑构建成一个有向无环图并且还会将DAG先进行优化后再生成物理执行计划同时Spark也支持数据缓存在内存中的计算性能比Hadoop MapReduce快100倍即便是不将数据cache到内存中其速度也是MapReduce 10倍以上

简洁易用

Spark支持Java Scala Python和R等编程语言编写应用程序大大降低了使用者的门槛自带了80多个高等级操作算子并且允许在Scala Python R的使用命令进行交互式运行可以非常方便的在Spark Shell中编写spark程序

全栈式数据处理

Spark提供了统一的大数据处理解决方案非常具有吸引力毕竟任何公司都想用统一的平台去处理遇到的问题减小开发和维护的人力成本和部署平台的物力成本同时Spark还支持SQL 大大降低了大数据开发者的使用门槛同时提供了SparkStream和Structed Streaming 可以处理实时流数据 MLlib机器学习库提供机器学习相关的统计分类回归等领域的多种算法实现其高度封装的API接口大大降低了用户的学习成本 SparkGraghX提供分布式图形计算处理能力 PySpark支持Python编写Spark程序;SparkR支持R语言编写Spark程序

兼容性良好

Spark支持的多种部署方案:Standalone是Spark自带的资源调度模式;Spark可以运行在Hadoop的YARN上面;Spark可以运行在Mesos上(Mesos是一个类似于YARN的资源调度框架);Spark还可以Kubernetes实现容器化的资源调度
- 单机运行测试
- Yarn资源调度平台
- 自带集群模式
- 第三方调度平台
丰富的数据源支持:Spark除了可以访问操作系统自身的本地文件系统和HDFS之外还可以访问Cassandra HBase Hive Alluxio 以及任何Hadoop兼容的数据源这极大地方便了大数据系统进行顺利迁移到Spark

MapReduce和Spark的本质区别

MR只能做离线计算如果实现复杂计算逻辑一个MR搞不定就需要将多个MR按照先后顺序连城一串一个MR计算完成后会将计算结果写入到HDFS中下一个MR将上一个MR的输出作为输入这样就要频繁读写HDFS 网络IO和磁盘IO会成为性能瓶颈从而导致效率低下
既可以做离线计算又可以做实时计算提供了抽象的数据集(RDD Dataset DataFrame DStream)
有高度封装的API 算子丰富并且使用了更先进的DAG有向无环图调度思想可以对执行计划优化后再执行并且可以将数据cache到内存中进行复用

注意:MR和Spark在Shuffle时数据都落本都磁盘

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录