- spark有哪些组件?
- Spark的三种提交模式是什么?
- 搭建spark集群步骤?
- Spark的特点是什么?
- spark常⽤的计算框架
- spark streaming中有状态转化操作
- 宽依赖和窄依赖
- 说说updateStateByKey
- spark性能优化有哪些
- spark核⼼编程原理?
- 说说Spark⼯作流程?
- spark大多数算子总结
- spark内核架构原理
- DStream以及基本⼯作原理?
- Spark streaming以及基本⼯作原理?
- RDD机制?
- Spark Streaming和Storm有何区别?
- checkpoint和持久化机制的区别?
- checkpoint检查点机制?
- RDD持久化原理?
- hadoop和spark的相同点和不同点?
- spark如何保证宕机迅速恢复?
- hadoop和spark使⽤场景?
- Spark的Shuffle原理及调优
- 为什么要用 Yarn 来部署 Spark?
- Task 和 Stage 的分类
- groupByKey 和 reduceByKey 是属于 Transformation 还是 Action?
- 说说 map 和 mapPartitions 的区别
- 可以解释一下这两段程序的异同吗
- Transformation 和 action 是什么?区别?举几个常用方法
- Spark 优越性
- RDD 如何通过记录更新的方式容错
- Spark 经常说的 Repartition 有什么作用
- 说说 Spark Local 和 Standalone 有什么区别
- 说说 Worker 和 Executor 的区别
- 简单说说 Spark 支持的4种集群管理器
- spark实际⼯作中,是怎么来根据任务量,判定需要多少资源的?
- Spark 作业提交流程是怎么样的
- RDD, DAG, Stage, Task 和 Job 怎么理解?
- Spark为什么快,Spark SQL 一定比 Hive 快吗
- 数据倾斜的产⽣和解决办法?
- spark解决了hadoop的哪些问题?
- spark⽀持故障恢复的⽅式?
- Spark主备切换机制原理剖析?
- SparkContext初始化原理?
- Spark yarn-client架构?
- Spark yarn-cluster架构?