单元测试汇总

第1章大数据概述单元测验
第2章大数据处理架构Hadoop 单元测验
第3章分布式文件系统HDFS 单元测验
第4章分布式数据库HBase单元测验
第5章 NoSQL数据库单元测验
第6章云数据库单元测验
第7章 MapReduce 单元测验
第10章 Spark 单元测验

第1章大数据概述单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‎
‌第三次信息化浪潮的标志是：

A.互联网的普及
B.虚拟现实技术的普及
C.云计算、大数据、物联网技术的普及2.00/2.00
D.个人电脑的普及

正确答案：C你选对了
得分/总分
2
单选(2分)
‏
‍就数据的量级而言，1PB数据是多少TB？

A.2048
B.512
C.1000
D.10242.00/2.00

正确答案：D你选对了
得分/总分
3
单选(2分)
‌以下关于云计算、大数据和物联网之间的关系，论述错误的是：

A.云计算、大数据和物联网三者紧密相关，相辅相成
B.物联网可以借助于云计算实现海量数据的存储
C.物联网可以借助于大数据实现海量数据的分析
D.云计算侧重于数据分析2.00/2.00

正确答案：D你选对了
得分/总分
4
单选(2分)
‍以下哪个不是大数据时代新兴的技术：

A.MySQL2.00/2.00
B.Hadoop
C.HBase
D.Spark

正确答案：A你选对了
得分/总分
5
单选(2分)
‏
‎每种大数据产品都有特定的应用场景，以下哪个产品是用于批处理的：

A.Storm
B.Dremel
C.Pregel
D.MapReduce2.00/2.00

正确答案：D你选对了
得分/总分
6
单选(2分)
‏
‌每种大数据产品都有特定的应用场景，以下哪个产品是用于流计算的：

A.S42.00/2.00
B.Hive
C.Impala
D.GraphX

正确答案：A你选对了
得分/总分
7
单选(2分)
‌
‍每种大数据产品都有特定的应用场景，以下哪个产品是用于图计算的：

A.Flume
B.Pregel2.00/2.00
C.Storm
D.Cassandra

正确答案：B你选对了
得分/总分
8
单选(2分)
‌
每种大数据产品都有特定的应用场景，以下哪个产品是用于查询分析计算的：

A.Dremel2.00/2.00
B.HDFS
C.S4
D.MapReduce

正确答案：A你选对了
得分/总分
9
多选(3分)
‏数据产生方式大致经历了三个阶段，包括：

A.运营式系统阶段该题无法得分/3.00
B.移动互联网数据阶段该题无法得分/3.00
C.用户原创内容阶段该题无法得分/3.00
D.感知式系统阶段

正确答案：A、C、D你错选为A、B、C

得分/总分
10
多选(3分)
‎
‏大数据发展的三个阶段是：

A.萌芽期1.00/3.00
B.大规模应用期1.00/3.00
C.成熟期1.00/3.00
D.低谷期

正确答案：A、B、C你选对了
得分/总分
11
多选(3分)
‎
‌大数据的特性包括：

A.数据量大0.75/3.00
B.价值密度低0.75/3.00
C.数据类型繁多0.75/3.00
D.处理速度快0.75/3.00

正确答案：A、B、C、D你选对了

得分/总分
12
多选(3分)
‌
‍图领奖获得者、著名数据库专家Jim Gray博士认为，人类自古以来在科学研究上先后经历了哪几种范式：

A.计算科学0.75/3.00
B.数据密集型科学0.75/3.00
C.实验科学0.75/3.00
D.理论科学0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
13
多选(3分)
‍
‌大数据带来思维方式的三个转变是：

A.精确而非全面
B.全样而非抽样1.00/3.00
C.效率而非精确1.00/3.00
D.相关而非因果1.00/3.00

正确答案：B、C、D你选对了
得分/总分
14
多选(3分)
‌
大数据主要有哪几种计算模式：

A.流计算0.75/3.00
B.批处理计算0.75/3.00
C.图计算0.75/3.00
D.查询分析计算0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
15
多选(3分)
‍
‏云计算的典型服务模式包括三种：

A.PaaS1.00/3.00
B.MaaS
C.IaaS1.00/3.00
D.SaaS1.00/3.00

正确答案：A、C、D你选对了
返回

第2章大数据处理架构Hadoop 单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‍
‍启动hadoop所有进程的命令是:

A.start-hdfs.sh
B.start-dfs.sh
C.start-all.sh
D.start-hadoop.sh0.00/2.00

正确答案：C你错选为D

补充：单个进程 start-dfs.sh”启动Hadoop
得分/总分
2
单选(2分)
‌
‌以下对Hadoop的说法错误的是：

A.Hadoop的核心是HDFS和MapReduce
B.Hadoop MapReduce是针对谷歌MapReduce的开源实现，通常用于大规模数据集的并行计算
C.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D.Hadoop是基于Java语言开发的，只支持Java语言编程2.00/2.00

正确答案：D你选对了
得分/总分
3
单选(2分)
‎
以下哪个不是Hadoop的特性:

A.高可靠性
B.支持多种编程语言
C.成本高2.00/2.00
D.高容错性

正确答案：C你选对了
得分/总分
4
单选(2分)
‍
‌以下名词解释不正确的是:

A.Zookeeper：针对谷歌Chubby的一个开源实现，是高效可靠的协同工作系统
B.HBase：提供高可靠性、高性能、分布式的行式数据库，是谷歌BigTable的开源实现2.00/2.00
C.HDFS：分布式文件系统，是Hadoop项目的两大核心之一，是谷歌GFS的开源实现
D.Hive：一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

正确答案：B你选对了
得分/总分
5
多选(3分)
‍以下哪些组件是Hadoop的生态系统的组件：

A.HDFS1.00/3.00
B.Oracle
C.MapReduce1.00/3.00
D.HBase1.00/3.00

正确答案：A、C、D你选对了

得分/总分
6
多选(3分)
‌以下哪个命令可以用来操作HDFS文件:

A.hadoop dfs
B.hdfs fs
C.hdfs dfs1.00/3.00
D.hadoop fs1.00/3.00

正确答案：A、C、D你错选为C、D

返回

第3章分布式文件系统HDFS 单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‌
‎HDFS的命名空间不包含:

A.文件
B.字节2.00/2.00
C.目录
D.块

正确答案：B你选对了
得分/总分
2
单选(2分)
‎
‎对HDFS通信协议的理解错误的是:

A.名称节点和数据节点之间则使用数据节点协议进行交互0.00/2.00
B.客户端与数据节点的交互是通过RPC（Remote Procedure Call）来实现的
C.客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互
D.HDFS通信协议都是构建在IoT协议基础之上的

正确答案：D你错选为A
得分/总分
3
单选(2分)
‍
‌采用多副本冗余存储的优势不包含:

A.加快数据传输速度
B.保证数据可靠性
C.容易检查数据错误
D.节约存储空间2.00/2.00

正确答案：D你选对了
得分/总分
4
单选(2分)
‍假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是:

A.start-dfs.sh，stop-hdfs.sh
B.start-hdfs.sh，stop-dfs.sh
C.start-dfs.sh，stop-dfs.sh
D.start-hdfs.sh，stop-hdfs.sh0.00/2.00

正确答案：C你错选为D
得分/总分
5
单选(2分)
‏分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫，另一类存储具体数据叫 :

A.数据节点，名称节点
B.从节点，主节点
C.名称节点，数据节点2.00/2.00
D.名称节点，主节点

正确答案：C你选对了
得分/总分
6
单选(2分)
‌
‏下面关于分布式文件系统HDFS的描述正确的是：

A.分布式文件系统HDFS是Google Bigtable的一种开源实现
B.分布式文件系统HDFS是一种关系型数据库
C.分布式文件系统HDFS是谷歌分布式文件系统GFS（Google File System）的一种开源实现2.00/2.00
D.分布式文件系统HDFS比较适合存储大量零碎的小文件

正确答案：C你选对了
得分/总分
7
多选(3分)
‌以下对名称节点理解正确的是:

A.名称节点用来负责具体用户数据的存储
B.名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问1.00/3.00
C.名称节点通常用来保存元数据1.00/3.00
D.名称节点的数据保存在内存中1.00/3.00

正确答案：B、C、D你选对了
得分/总分
8
多选(3分)
‎
‎以下对数据节点理解正确的是:

A.数据节点通常只有一个
B.数据节点用来存储具体的文件内容1.00/3.00
C.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作1.00/3.00
D.数据节点的数据保存在磁盘中1.00/3.00

正确答案：B、C、D你选对了
得分/总分
9
多选(3分)
‏
HDFS只设置唯一一个名称节点带来的局限性包括:

A.命名空间的限制0.75/3.00
B.隔离问题0.75/3.00
C.性能的瓶颈0.75/3.00
D.集群的可用性0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
10
多选(3分)
‍
‌以下HDFS相关的shell命令不正确的是:

A.hadoop fs -ls ：显示指定的文件的详细信息
B.hadoop fs -copyFromLocal ：将路径指定的文件或文件夹复制到路径指定的文件夹中该题无法得分/3.00
C.hdfs dfs -rm ：删除路径指定的文件该题无法得分/3.00
D.hadoop dfs mkdir ：创建指定的文件夹

正确答案：B、D你错选为B、C
返回

第4章分布式数据库HBase单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‍
‍HBase是一种数据库

A.行式数据库
B.关系数据库
C.列式数据库2.00/2.00
D.文档数据库

正确答案：C你选对了
得分/总分
2
单选(2分)
‎
‏下列对HBase数据模型的描述错误的是:

A.HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本
B.HBase列族支持动态扩展，可以很轻松地添加一个列族或列
C.HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳0.00/2.00
D.每个HBase表都由若干行组成，每个行由行键（row key）来标识

正确答案：A你错选为C
得分/总分
3
单选(2分)
‏
下列说法正确的是:

A.如果通过HBase Shell插入表数据，可以插入一行数据或一个单元格数据
B.如果不启动Hadoop，则HBase完全无法使用
C.Zookeeper是一个集群管理工具，常用于分布式计算，提供配置维护、域名服务、分布式同步等2.00/2.00
D.HBase的实现包括的主要功能组件是库函数，一个Master主服务器和一个Region服务器

正确答案：C你选对了
得分/总分
4
单选(2分)
‌
‍在HBase数据库中，每个Region的建议最佳大小是：

A.2GB-4GB
B.500MB-1000MB
C.100MB-200MB0.00/2.00
D.1GB-2GB

正确答案：D你错选为C
得分/总分
5
单选(2分)
‌
‌HBase三层结构的顺序是:

A.Zookeeper文件，-ROOT-表，.MEATA.表2.00/2.00
B.Zookeeper文件，.MEATA.表，-ROOT-表
C.-ROOT-表，Zookeeper文件，.MEATA.表
D..MEATA.表，Zookeeper文件，-ROOT-表

正确答案：A你选对了
得分/总分
6
单选(2分)
‏
‍客户端是通过级寻址来定位Region:

A.二
B.三2.00/2.00
C.一
D.四

正确答案：B你选对了
得分/总分
7
单选(2分)
‏
‍关于HBase Shell命令解释错误的是:

A.create：创建表
B.get：通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值
C.put：向表、行、列指定的单元格添加数据
D.list：显示表的所有数据2.00/2.00

正确答案：D你选对了
得分/总分
8
多选(3分)
‏
‏下列对HBase的理解正确的是：

A.HBase是一种关系型数据库，现成功应用于互联网服务领域该题无法得分/3.00
B.HBase是一个行式分布式数据库，是Hadoop生态系统中的一个组件该题无法得分/3.00
C.HBase是针对谷歌BigTable的开源实现该题无法得分/3.00
D.HBase多用于存储非结构化和半结构化的松散数据该题无法得分/3.00

正确答案：C、D你错选为A、B、C、D
得分/总分
9
多选(3分)
HBase和传统关系型数据库的区别在于哪些方面:

A.数据索引0.75/3.00
B.存储模式0.75/3.00
C.数据模型0.75/3.00
D.数据操作0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
10
多选(3分)
‌访问HBase表中的行，有哪些方式:

A.通过某列的值区间
B.通过单个行健访问1.00/3.00
C.全表扫描1.00/3.00
D.通过一个行健的区间来访问1.00/3.00

正确答案：B、C、D你选对了
返回

第5章 NoSQL数据库单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‎下列关于NoSQL数据库和关系型数据库的比较，不正确的是：

A.NoSQL数据库的可扩展性比传统的关系型数据库更好
B.NoSQL数据库具有弱一致性，关系型数据库具有强一致性
C.NoSQL数据库缺乏统一的查询语言，而关系型数据库有标准化查询语言
D.NoSQL数据库很容易实现数据完整性，关系型数据库很难实现数据完整性2.00/2.00

正确答案：D你选对了
得分/总分
2
单选(2分)
以下对各类数据库的理解错误的是:

A.键值数据库的键是一个字符串对象，值可以是任意类型的数据，比如整型和字符型等
B.图数据库灵活性高，支持复杂的图算法，可用于构建复杂的关系图谱
C.HBase数据库是列族数据库，可扩展性强，支持事务一致性2.00/2.00
D.文档数据库的数据是松散的，XML和JSON 文档等都可以作为数据存储在文档数据库中

正确答案：C你选对了
得分/总分
3
单选(2分)
‎
‏下列数据库属于文档数据库的是:

A.MongoDB2.00/2.00
B.MySQL
C.Redis
D.HBase

正确答案：A你选对了
得分/总分
4
单选(2分)
‌
‌ NoSQL数据库的三大理论基石不包括:

A.最终一致性
B.BASE
C.CAP
D.ACID2.00/2.00

正确答案：D你选对了
得分/总分
5
多选(3分)
‍
‌关于NoSQL数据库和关系数据库，下列说法正确的是：

A.关系数据库有关系代数理论作为基础，NoSQL数据库没有统一的理论基础
B.大多数NoSQL数据库很难实现数据完整性
C.NoSQL数据库和关系数据库各有优缺点，但随着NoSQL的发展，终将取代关系数据库该题无法得分/3.00
D.NoSQL数据库可以支持超大规模数据存储，具有强大的横向扩展能力

正确答案：A、B、D你错选为C
得分/总分
6
多选(3分)
‏
‎ NoSQL数据库的类型包括：

A.列族数据库0.75/3.00
B.键值数据库0.75/3.00
C.图数据库0.75/3.00
D.文档数据库0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
7
多选(3分)
‌
‍CAP是指:

A.持久性
B.分区容忍性1.00/3.00
C.可用性1.00/3.00
D.一致性1.00/3.00

正确答案：B、C、D你选对了
得分/总分
8
多选(3分)
‍
‏NoSQL数据库的BASE特性是指:

A.持续性
B.最终一致性1.00/3.00
C.基本可用1.00/3.00
D.软状态1.00/3.00

正确答案：B、C、D你选对了
返回

第6章云数据库单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‍
‎下列Amazon的云数据库属于关系数据库的是：

A.Amazon Redshift0.00/2.00
B.Amazon DynamoDB
C.Amazon RDS
D.Amazon SimpleDB

正确答案：C你错选为A
得分/总分
2
单选(2分)
‎下列关于UMP系统的说法不正确的是:

A.UMP系统是低成本和高性能的MySQL云数据库方案
B.Controller服务器向UMP集群提供各种管理服务，实现集群成员管理、元数据存储等功能
C.Agent服务器部署在运行MySQL进程的机器上，用来管理每台物理机上的MySQL实例
D.Mnesia是UMP系统的一个组件，是一个分布式数据库管理系统，且不支持事务2.00/2.00

正确答案：D你选对了
得分/总分
3
多选(3分)
‍
‎UMP依赖的开源组件包括:

A.Mnesia0.75/3.00
B.ZooKeeper0.75/3.00
C.LVS0.75/3.00
D.RabbitMQ0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
4
多选(3分)
‍
‌在UMP系统中，Zookeeper主要发挥的作用包括:

A.作为全局的配置服务器1.00/3.00
B.负责集群负载均衡
C.提供分布式锁，选出一个集群的“总管”1.00/3.00
D.监控所有MySQL实例1.00/3.00

正确答案：A、C、D你选对了
得分/总分
5
多选(3分)
‌
‎UMP系统设计了哪些机制来保证数据安全:

A.SQL拦截0.75/3.00
B.记录用户操作日志0.75/3.00
C.数据访问IP白名单0.75/3.00
D.SSL数据库连接0.75/3.00

正确答案：A、B、C、D你选对了
返回

第7章 MapReduce 单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‍下列说法错误的是:

A.Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写2.00/2.00
B.Map函数将输入的元素转换成形式的键值对
C.不同的Map任务之间不能互相通信
D.MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave

正确答案：A你选对了
得分/总分
2
单选(2分)
‌
‏在使用MapReduce程序WordCount进行词频统计时，对于文本行“hello hadoop hello world”，经过WordCount程序的Map函数处理后直接输出的中间结果，应该是下面哪种形式：

A.<”hello”,<1,1>>、<”hadoop”,1>和<”world”,1>0.00/2.00
B.<”hello”,1>、<”hello”,1>、<”hadoop”,1>和<”world”,1>
C.<”hello”,1,1>、<”hadoop”,1>和<”world”,1>
D.<”hello”,2>、<”hadoop”,1>和<”world”,1>

正确答案：B你错选为A
得分/总分
3
单选(2分)
‎
‎对于文本行“hello hadoop hello world”，经过WordCount的Reduce函数处理后的结果是:

A.<”hello”,1><”hello”,1><”hadoop”,1><”world”,1>
B.<”hello”,2><”hadoop”,1><”world”,1>2.00/2.00
C.<”hello”,1,1><”hadoop”,1><”world”,1>
D.<”hello”,<1,1>><”hadoop”,1><”world”,1>

正确答案：B你选对了
得分/总分
4
多选(3分)
‏
下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架比较正确的是：

A.前者相比后者学习起来更难0.75/3.00
B.前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好0.75/3.00
C.前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型0.75/3.00
D.前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
5
多选(3分)
‎MapReduce1.0的体系结构主要由哪几个部分组成:

A.JobTracker0.75/3.00
B.Task0.75/3.00
C.TaskTracker0.75/3.00
D.Client0.75/3.00

正确答案：A、B、C、D你选对了
返回

第10章 Spark 单元测验

已经超过规定的测试次数或提交截止时间已过。你可以作为自我学习进行测验，但提交的结果将无法获得学分。
1
得分/总分
单选(2分)
‌
‍Spark SQL目前暂时不支持下列哪种语言:

A.Python
B.Lisp2.00/2.00
C.Scala
D.Java

正确答案：B你选对了
得分/总分
2
单选(2分)
‏
‏RDD操作分为转换（Transformation）和动作（Action）两种类型，下列属于动作（Action）类型的操作的是:

A.groupBy
B.count2.00/2.00
C.map
D.filter

正确答案：B你选对了
得分/总分
3
单选(2分)
‍
‏下列说法错误的是：

A.在选择Spark Streaming和Storm时，对实时性要求高（比如要求毫秒级响应）的企业更倾向于选择流计算框架Storm
B.RDD采用惰性调用，遇到“转换(Transformation)”类型的操作时，只会记录RDD生成的轨迹，只有遇到“动作(Action)”类型的操作时才会触发真正的计算0.00/2.00
C.Spark支持三种类型的部署方式：Standalone，Spark on Mesos，Spark on YARN
D.RDD提供的转换接口既适用filter等粗粒度的转换，也适合某一数据项的细粒度转换

正确答案：D你错选为B
得分/总分
4
单选(2分)
‎
下列关于常见的动作（Action）和转换（Transformation）操作的API解释错误的是:

A.filter(func)：筛选出满足函数func的元素，并返回一个新的数据集0.00/2.00
B.map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集
C.count()：返回数据集中的元素个数
D.take(n)：返回数据集中的第n个元素

正确答案：D你错选为A
得分/总分
5
单选(2分)
‎
‏下列大数据处理类型与其对应的软件框架不匹配的是:

A.复杂的批量数据处理：MapReduce
B.基于历史数据的交互式查询：Impala0.00/2.00
C.基于实时数据流的数据处理：Storm
D.图结构数据的计算：Hive

正确答案：D你错选为B
得分/总分
6
多选(3分)
‍
‍Apache软件基金会最重要的三大分布式计算系统开源项目包括：

A.Hadoop该题无法得分/3.00
B.Storm
C.Spark该题无法得分/3.00
D.Oracle该题无法得分/3.00

正确答案：A、B、C你错选为A、C、D
得分/总分
7
多选(3分)
‌
‌Spark的主要特点包括:

A.运行速度快0.75/3.00
B.容易使用0.75/3.00
C.通用性好0.75/3.00
D.运行模式多样0.75/3.00

正确答案：A、B、C、D你选对了
得分/总分
8
多选(3分)
‍
‎下列关于Scala的说法正确的是:

A.Scala运行于Java平台，兼容现有的Java程序
B.Scala是一种多范式编程语言0.75/3.00
C.Scala具备强大的并发性，支持函数式编程0.75/3.00
D.Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言0.75/3.00

正确答案：A、B、C、D你错选为B、C、D
得分/总分
9
多选(3分)
‍
‌Spark的运行架构包括:

A.每个应用的任务控制节点 Driver0.75/3.00
B.每个工作节点上负责具体任务的执行进程 Executor0.75/3.00
C.集群资源管理器 Cluster Manager0.75/3.00
D.运行作业任务的工作节点 Worker Node0.75/3.00

正确答案：A、B、C、D你选对了

第1章 大数据概述 单元测验

第2章 大数据处理架构Hadoop 单元测验

第3章 分布式文件系统HDFS 单元测验

第4章 分布式数据库HBase单元测验

第5章 NoSQL数据库 单元测验

第6章 云数据库 单元测验