单选题

1/19.
下列关于Spark的描述,错误的是哪一项?

  • A.Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
  • B.Spark在2014年打破了Hadoop保持的基准排序纪录
  • C.Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
  • D.Spark运行模式单一

image.png
2/19.
下列关于Spark的描述,错误的是哪一项?

  • A.使用DAG执行引擎以支持循环数据流与内存计算析
  • B.可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
  • C.支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程
  • D.可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中

image.png
3/19.
下列关于Scala特性的描述,错误的是哪一项?

  • A.Scala语法复杂,但是能提供优雅的API计算
  • B.Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
  • C.Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
  • D.Scala是Spark的主要编程语言

image.png
4/19.
下列说法哪项有误?

  • A.相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
  • B.Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
  • C.Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
  • D.Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案

image.png
image.png
5/19.
在Spark生态系统组件的应用场景中,下列哪项说法是错误的?

  • A.Spark应用在复杂的批量数据处理
  • B.Spark SQL是基于历史数据的交互式查询
  • C.Spark Streaming是基于历史数据的数据挖掘
  • D.GraphX是图结构数据的处理

image.png
6/19.
下列说法错误的是?

  • A.RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
  • B.Application是用户编写的Spark应用程序
  • C.一个Job包含多个RDD及作用于相应RDD上的各种操作
  • D.Directed Acyclic Graph反映RDD之间的依赖关系

image.png
7/19.
下列关于RDD说法,描述有误的是?

  • A.一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
  • B.每个RDD可分成多个分区,每个分区就是一个数据集片段
  • C.RDD是可以直接修改的
  • D.RDD提供了一种高度受限的共享内存模型

image.png
8/19.
Spark生态系统组件Spark Streaming的应用场景是?

  • A.基于历史数据的数据挖掘 MLlib
  • B.图结构数据的处理GraphX
  • C.基于历史数据的交互式查询Spark SQL
  • D.基于实时数据流的数据处理

9/19.
Spark生态系统组件MLlib的应用场景是?

  • A.图结构数据的处理
  • B.基于历史数据的交互式查询
  • C.复杂的批量数据处理
  • D.基于历史数据的数据挖掘

    多选题

    10/19.
    Spark具有以下哪几个主要特点?

  • A.运行速度快

  • B.容易使用
  • C.通用性
  • D.运行模式单一

image.png
11/19.
Scala具有以下哪几个主要特点?

  • A.Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率
  • B.Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
  • C.Scala具备强大的并发性,支持函数式编程
  • D.Scala可以更好地支持分布式系统

image.png
12/19.
下列哪些选项属于Hadoop的缺点?

  • A.表达能力有限
  • B.磁盘IO开销大
  • C.延迟高
  • D.在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务

image.png
13/19.
下列说法中,哪些选项描述正确?

  • A.Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题
  • B.Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作
  • C.Hadoop MapReduce编程模型比Spark更灵活
  • D.Hadoop MapReduce提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

image.png
14/19.
在实际应用中,大数据处理主要包括以下哪三个类型?

  • A.复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间
  • B.基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间
  • C.基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间
  • D.基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间

image.png
15/19.
在实际应用中,当采用多种计算架构来满足不同应用场景需求时,大数据处理难免会带来哪些问题?

  • A.不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换
  • B.不同的软件需要不同的开发和维护团队
  • C.需要较高的使用成本
  • D.比较难以对同一个集群中的各个系统进行统一的资源协调和分配

image.png
16/19.
与Hadoop MapReduce计算框架相比,Spark所采用的Executor具有哪些优点?

  • A.利用多线程来执行具体的任务,减少任务的启动开销
  • B.Executor中有一个BlockManager存储模块,有效减少IO开销
  • C.提供了一种高度受限的共享内存模型
  • D.不同场景之间输入输出数据能做到无缝共享

image.png
17/19.
Spark运行架构具有以下哪些特点?

  • A.每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留
  • B.Executor进程以多线程的方式运行Task
  • C.Spark运行过程与资源管理器无关,只要能够获取Executor进程并保持通信即可
  • D.Task采用了数据本地性和推测执行等优化机制

image.png
18/19.
Spark采用RDD以后能够实现高效计算的原因主要在于?

  • A.高效的容错性
  • B.中间结果持久化到内存,数据在内存中的多个
  • C.存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化
  • D.采用数据复制实现容错

image.png
19/19.
Spark支持哪三种不同类型的部署方式?

  • A.Standalone(类似于MapReduce1.0,slot为资源分配单位)
  • B.Spark on Mesos(和Spark有血缘关系,更好支持Mesos)
  • C.Spark on YARN
  • D.Spark on HDFS

image.png