第10章 Spark

浏览 167 扫码分享 2023-11-23 12:57:54

单选题
多选题

单选题

1/19.
下列关于Spark的描述，错误的是哪一项？

A.Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发
B.Spark在2014年打破了Hadoop保持的基准排序纪录
C.Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度
D.Spark运行模式单一

2/19.
下列关于Spark的描述，错误的是哪一项？

A.使用DAG执行引擎以支持循环数据流与内存计算析
B.可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中
C.支持使用Scala、Java、Python和R语言进行编程，但是不可以通过Spark Shell进行交互式编程
D.可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中

3/19.
下列关于Scala特性的描述，错误的是哪一项？

A.Scala语法复杂，但是能提供优雅的API计算
B.Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
C.Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中
D.Scala是Spark的主要编程语言

4/19.
下列说法哪项有误？

A.相对于Spark来说，使用Hadoop进行迭代计算非常耗资源
B.Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据
C.Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D.Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案

5/19.
在Spark生态系统组件的应用场景中，下列哪项说法是错误的？

A.Spark应用在复杂的批量数据处理
B.Spark SQL是基于历史数据的交互式查询
C.Spark Streaming是基于历史数据的数据挖掘
D.GraphX是图结构数据的处理

6/19.
下列说法错误的是？

A.RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task
B.Application是用户编写的Spark应用程序
C.一个Job包含多个RDD及作用于相应RDD上的各种操作
D.Directed Acyclic Graph反映RDD之间的依赖关系

7/19.
下列关于RDD说法，描述有误的是？

A.一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合
B.每个RDD可分成多个分区，每个分区就是一个数据集片段
C.RDD是可以直接修改的
D.RDD提供了一种高度受限的共享内存模型

8/19.
Spark生态系统组件Spark Streaming的应用场景是？

A.基于历史数据的数据挖掘 MLlib
B.图结构数据的处理GraphX
C.基于历史数据的交互式查询Spark SQL
D.基于实时数据流的数据处理

9/19.
Spark生态系统组件MLlib的应用场景是？

A.图结构数据的处理
B.基于历史数据的交互式查询
C.复杂的批量数据处理
D.基于历史数据的数据挖掘

多选题
10/19.
Spark具有以下哪几个主要特点？
A.运行速度快
B.容易使用
C.通用性
D.运行模式单一

11/19.
Scala具有以下哪几个主要特点？

A.Scala的优势是提供了REPL（Read-Eval-Print Loop，交互式解释器），提高程序开发效率
B.Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中
C.Scala具备强大的并发性，支持函数式编程
D.Scala可以更好地支持分布式系统

12/19.
下列哪些选项属于Hadoop的缺点？

A.表达能力有限
B.磁盘IO开销大
C.延迟高
D.在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务

13/19.
下列说法中，哪些选项描述正确？

A.Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题
B.Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作
C.Hadoop MapReduce编程模型比Spark更灵活
D.Hadoop MapReduce提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高

14/19.
在实际应用中，大数据处理主要包括以下哪三个类型？

A.复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间
B.基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间
C.基于实时数据流的数据处理：通常时间跨度在数十秒到数分钟之间
D.基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间

15/19.
在实际应用中，当采用多种计算架构来满足不同应用场景需求时，大数据处理难免会带来哪些问题？

A.不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换
B.不同的软件需要不同的开发和维护团队
C.需要较高的使用成本
D.比较难以对同一个集群中的各个系统进行统一的资源协调和分配

16/19.
与Hadoop MapReduce计算框架相比，Spark所采用的Executor具有哪些优点？

A.利用多线程来执行具体的任务，减少任务的启动开销
B.Executor中有一个BlockManager存储模块，有效减少IO开销
C.提供了一种高度受限的共享内存模型
D.不同场景之间输入输出数据能做到无缝共享

17/19.
Spark运行架构具有以下哪些特点？

A.每个Application都有自己专属的Executor进程，并且该进程在Application运行期间一直驻留
B.Executor进程以多线程的方式运行Task
C.Spark运行过程与资源管理器无关，只要能够获取Executor进程并保持通信即可
D.Task采用了数据本地性和推测执行等优化机制

18/19.
Spark采用RDD以后能够实现高效计算的原因主要在于？

A.高效的容错性
B.中间结果持久化到内存，数据在内存中的多个
C.存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化
D.采用数据复制实现容错

19/19.
Spark支持哪三种不同类型的部署方式？

A.Standalone（类似于MapReduce1.0，slot为资源分配单位）
B.Spark on Mesos（和Spark有血缘关系，更好支持Mesos）
C.Spark on YARN
D.Spark on HDFS

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录