2 - 《机器学习》 - 极客文档

【单选题】下列关于HDFS的描述正确的是？ (2分)
A.如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作
B.HDFS集群支持数据的随机读写
C.NameNode磁盘元数据不保存Block的位置信息
D.DataNode通过长连接与NameNode保持通信

【单选题】 HDFS默认 Block Size大小是多少 (2分)
A.32MB
B.64MB
C.128MB
D.256MB
3. 【单选题】下面哪个程序负责 HDFS 数据存储。 (2分)
A.NameNode
B.Jobtracker
C. Datanode
D.secondaryNameNode
4. 【单选题】下列不属于flume组件的是__ (2分)
A.hdfs
B.source
C.channel
D.sink
5. 【单选题】以下不是Redis优点的是？ (2分)
A.支持事务
B.读写不占据内存，数据放在磁盘
C.支持丰富的数据类型
D.支持数据持久化
6. 【单选题】 HFile数据格式中的Data字段用于（） (2分)
A.存储实际的KeyValue数据
B.存储数据的起点
C.指定字段的长度
D.存储数据块的起点
上一题下一题保存答案提交考评

返回
7. 【单选题】 HDFS 中的 block 默认保存几个备份 (2分)
A.3份
B.2份
C.1份
D.不确定

返回
8. 【单选题】下列关于MapReduce说法不正确的是_？ (2分)
A.MapReduce是一种计算框架
B.MapReduce来源于google的学术论文
C.MapReduce程序只能用java语言编写
D.MapReduce隐藏了并行计算的细节，方便使用
上一题下一题保存答案提交考评
9. 【单选题】下列哪个程序通常与 NameNode 在一个节点启动？ (2分)
A.SecondaryNameNode
B.DataNode
C.TaskTracker
D.Jobtracker
10. 【单选题】 Spark Job 默认的调度模式 ( ) (2分)
A.FIFO
B.FAIR
C.无
D.运行时指定
11. 【单选题】解压.tar.gz结尾的HBase压缩包使用的Linux命令是？ (2分)
A.tar -zxvf
B.tar -zx
C.tar -s
D.tar -nf
上一题下一题保存答案提交考评
12. 【单选题】以下哪个不是HDFS的守护进程？ (2分)
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode
13. 【单选题】 HBase依赖（）提供强大的计算能力 (2分)
A.Zookeeper
B. Chubby
C.RPC
D.MapReduce
14. 【单选题】下列元素中，（）不是input元素 (2分)
A.下拉列表框
B.多行文本域
C.图像
D.复选框
15. 【单选题】哪个不是本地模式运行的条件 ( ) (2分)
A.spark.localExecution.enabled=true
B.显式指定本地运行
C.finalStage无父Stage
D.partition默认值
16. 【单选题】 Hadoop作者 (2分)
A.Martin Fowler
B.Kent Beck
C.Doug cutting
17. 【单选题】 Redis不支持下面哪种数据类型？ (2分)
A.String
B. Int
C. Set
D. List
18. 【单选题】 Redis提供了几种持久化方式？ (2分)
A.2种
B.3种
C.4种
D.5种
19. 【单选题】关于SecondaryNameNode哪项是正确的？ (2分)
A.它是NameNode的热备
B.它对内存没有要求
C.它对目的是帮助NameNode合并编辑日志，减少NameNode的负担和冷启动时的加载时间
D.SecondaryNameNode应与NameNode部署到一个节点
20. 【单选题】在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是？ (2分)
A.ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高
B.使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象
C.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成
D.Job和JobControl类可以管理非线性作业之间的依赖

返回
21. 【单选题】 Hive是由哪家公司开源的大数据处理组件？ (2分)
A.Google
B.Apache
C.Facebook
22. 【单选题】 Kafka的作用是什么？ (2分)
A.消息队列
B.存储数据的起点
C.计算框
D.可视化工具
23. 【单选题】 Hive的计算引擎是什么？ (2分)
A.Spark
B.MapReduce
C.HDFS
上一题下一题保存答案提交考评
24. 【单选题】 MongoDB中每个集合可以创建几个索引？ (2分)
A.16个
B.32个
C.64个
D.128个
25. 【单选题】关于HDFS集群中的DataNode的描述不正确的是？ (2分)
A.DataNode之间都是独立的，相互之间不会有通信
B.存储客户端上传的数据的数据块
C.一个DataNode上存储的所有数据块可以有相同的
D.响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑
26. 【单选题】标记在标记之间，标记之间的内容将显示到（） (2分)
A.浏览器的页面上部
B.浏览器的标题栏上
C.浏览器的状态栏中
D.浏览器的页面下部
27. 【单选题】以下不是MapReduce计算过程的是？ (2分)
A.Mapper
B.Partitioner
C.Combiner
D.Task
28. 【单选题】下面不是Kafka特点的是 (2分)
A.高性能：单节点支持上千个客户端，百MB/s吞吐
B.分布式：数据副本冗余、流量负载均衡、可扩展
C.持久性：消息直接持久化在普通磁盘上且性能好
D.实时性：消息一旦消费就不再存储
29. 【单选题】在HTML 中，使用外部样式表可以通过（）元素进行引入 (2分)
A.REL
B.HREF
C.LINK
D.CSS
30. 【单选题】下面哪个不是 RDD 的特点 ( ) (2分)
A.可分区
B.可序列化
C.可修改
D.可持久化
31. 【单选题】命令hadoop fs -du -h /user/hive/warehouse的作用是什么？ (2分)
A.查看Hive中各个数据库存储使用情况
B.显示/user/hive/warehouse中文件列表
C.查看hive中/user/hive/warehouse下文件个数
32. 【单选题】 Hive定义一个自定义函数类时，需要继承以下哪个类？ (2分)
A.FunctionRegistry
B.UDF
C.MapReduce
33. 【单选题】 HBase虚拟分布式模式需要（）个节点？ (2分)
A.1
B.2
C.3
D.最少3个
34. 【单选题】 Kafka根据什么为单位进行归纳？ (2分)
A.broker
B.topic
C.producer
D.consumer
35. 【单选题】 HBase依靠（）存储底层数据 (2分)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
36. 【单选题】 Spark 的四大组件下面哪个不是 ( ) (2分)
A.Spark Streaming
B. Mlib
C.Graphx
D.Spark R
37. 【单选题】下列哪项通常是集群的最主要瓶颈： (2分)
A.CPU
B.网络
C.磁盘IO
D.内存
38. 【单选题】用来在网页中显示图形的标记为（） (2分)
A.
B.
C.
D.
39. 【单选题】 Hive加载数据文件到数据表中的关键语法是？ (2分)
A.LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename
B.INSERT DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename
C.LOAD DATA INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY
40. 【单选题】有关MapReduce的输入输出，说法错误的是 (2分)
A.链接多个MapReduce作业时，序列文件是首选格式
B.FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义
C.想完全禁止输出，可以使用NullOutputFormat
D.每个reduce需将它的输出写入自己的文件中，输出无需分片
41. 【单选题】下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是__ (2分)
A.FSDataInputStream扩展了DataInputStream以支持随机读
B.为实现细粒度并行，输入分片(Input Split)应该越小越好
C.一台机器可能被指派从输入文件的任意位置开始处理一个分片
D.输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割
42. 【单选题】 Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是？ (2分)
A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B.根据策略对数据块进行必要的复制或删除
C.当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D.文件系统允许有修改
43. 【单选题】 Client端上传文件的时候下列哪项正确？ (2分)
A.数据经过NameNode传递给DataNode
B.Client端将文件切分为Block，依次上传
C.Client只上传数据到一台DataNode，然后由NameNode负责Block复制
D.Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功
44. 【单选题】请问以下哪个命令组成是错误的？ (2分)
A.sbin/stop-dfs.sh
B.sbin/hdfsdfsadmin-report
C.bin/hadoopnamenode-format
D.bin/hadoopfs-cat/hadoopdata/my.txt

返回
45. 【单选题】 HDFS集群中的DataNode的主要职责是？ (2分)
A.维护HDFS集群的目录树结构维护HDFS集群的所有数据块的分布、副本数和负载均衡
B.维护HDFS集群的所有数据块的分布、副本数和负载均衡
C.负责保存客户端上传的数据
D.响应客户端的所有读写数据请求
46. 【单选题】下列关于配置机架感知的相关描述哪项不正确？ (2分)
A.如果一个机架出问题，不会影响数据读写和正确性
B.写入数据的时候多个副本会写到不同机架的DataNode中
C.MapReduce会根据机架的拓扑获取离自己比较近的数据块
D.数据块的第一个副本会优先考虑存储在客户端所在节点
47. 【单选题】 HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？ (2分)
A.一次写入，少次读写
B.多次写入，少次读写
C.一次写入，多次读写
D.多次写入，多次读写
48. 【单选题】关于HDFS的文件写入，正确的是？ (2分)
A.支持多用户对同一文件的写操作
B.用户可以在文件任意位置进行修改
C.默认将文件块复制成三份分别存放
D.复制的文件块默认都存在同一机架的多个不同节点上
49. 【单选题】 HBase中的批量加载底层使用（）实现。 (2分)
A.MapReduce
B.Hive
C.Coprocessor
D.Bloom Filter
50. 【单选题】以下关于jQuery的说法中错误的是（） (2分)
A.jQuery是JavaScript的程序库之一，它是对JavaScript的封装
B.相对于JavaScript，jQuery语法更为简单，能大幅提高开发效率
C.相对于JavaScript，jQuery解决了大部分浏览器兼容性问题，减少了出错的概率
D.jQuery功能强大，能完全代替JavaScript
51. 【单选题】下面哪个端口不是 spark 自带服务的端口 ( ) (2分)
A.8080
B.4040
C.8080
D.18080
52. 【单选题】 MongoDB的存储对象是什么 (2分)
A.BSON
B.JSON
C.txt文本
D.字符串
53. 【单选题】 HBase依赖（）提供消息通信机制 (2分)
A.Zookeeper
B. Chubby
C.RPC
D.Socket
54. 【单选题】下列哪种类型的文件不是HDFS集群的元数据存储格式？ (2分)
A.fsimage
B.edits
C.editsinprogress
D.blk000003425
55. 【单选题】下面关于Kafka描述错误的是 (2分)
A.一个topic分成多个partition
B.每个partition内部消息是无序的
C.一个partition只对应一个broker
D.消息不经过内存缓冲，直接写入文件
56. 【单选题】 HDFS集群中的namenode职责不包括？ (2分)
A.维护HDFS集群的目录树结构维护HDFS集群的所有数据块的分布、副本数和负载均衡
B.维护HDFS集群的所有数据块的分布、副本数和负载均衡
C.负责保存客户端上传的数据
D.响应客户端的所有读写数据请求
57. 【单选题】关于SecondaryNameNode哪项是正确的？ (2分)
A.它是NameNode的热备
B.它对内存没有要求
C.它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间
D.SecondaryNameNode应与NameNode部署到一个节点
58. 【单选题】以下哪个不是HDFS的守护进程？ (2分)
A.SecondaryNameNode
B.datanode
C.mrappmaster/yarnchild
D.namenode
59. 【问答题】
MapReduce是处理大数据的有力工具，但不是每个任务都可以使用MapReduce来进行处理。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。
第59题：共1考核点合计2分
1. 适合用MapReduce来处理的数据集
60. 【问答题】
全分布模式又有什么注意点？
第60题：共1考核点合计2分
1. 全分布式模式注意点
61. 【问答题】
试述关系数据库在哪些方面无法满族Web2.0应用的需求。
第61题：共1考核点合计2分
1. 关系数据库已经无法满足Web2.0的需求
62. 【问答题】
简述 HBASE 中 compact 用途是什么，什么时候触发，分为哪两种,有什么区别，有哪些相关配置参数？
第62题：共1考核点合计2分
1. hbase中compact的用途
2 - 图3 2 - 图4 2 - 图5
63. 【问答题】
如何准确理解NoSQL的含义？
第63题：共1考核点合计2分
1. NoSQL是一种不同于关系数据库的数据库管理系统设计方式
64. 【问答题】
解释下 hbase 实时查询的原理
第64题：共1考核点合计2分
1. hbase实时查询原理
65. 【问答题】
试分析为何采用Combiner可以减少数据传输量?是否所有的MapReduce程序都可以采用Combiner?为什么?
第65题：共1考核点合计2分
1. Combiner的输出是Reduce任务的输人，Combiner绝不能改变Reduce任务最终的计算结果，一般而言，累加、最大值等场景可以使用合并操作。
66. 【问答题】
Spark对RDD的操作主要分为行动（Action）和转换（Transformation）两种类型，两种类型操作的区别是什么？
第66题：共1考核点合计2分
1. 两种类型操作的区别
67. 【问答题】
负载均衡作为一个独立的进程与NameNode分开执行，HDFS负载均衡的处理步骤是什么？
第67题：共1考核点合计2分
1. 活动方式负载均衡的处理步骤
2 - 图6 2 - 图7 2 - 图8

【问答题】
解释一下hbase 的存储结构？
第68题：共1考核点合计2分
1. hbase存储结构
69. 【问答题】
Hive 的 sort by 和 order by 的区别
第69题：共1考核点合计2分
1. sort by 和 order by 的区别

70. 【问答题】
hdfs-site.xml 的 3 个主要属性？
第70题：共1考核点合计2分
1. 3个主要特性

71. 【问答题】
解释Kafka的用户如何消费信息?
第71题：共1考核点合计2分
1. 在Kafka中传递消息是通过使用sendfile API完成的

上一题下一题保存答案提交考评
72. 【问答题】
hbase如何导入数据？
第72题：共1考核点合计2分
1. hbase导入数据
73. 【问答题】
hive 是如何实现分的？
第73题：共1考核点合计2分
1. 三个步骤

74. 【问答题】
Flume的Source，Sink，Channel的作用？你们Source是什么类型？
第74题：共1考核点合计2分
1. 作用（1）Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy （2）Channel组件对采集到的数据进行缓存，可以存放在Memory或File中。（3）Sink组件是用于把数据发送到目的地的组件，目的地包括Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义。

上一题下一题保存答案提交考评
75. 【问答题】
Hadoop 集群可以运行的 3 个模式？
第75题：共1考核点合计2分
1. 3个模式
76. 【问答题】
hive 相对于 Oracle 来说有那些优点？
第76题：共1考核点合计2分
1. 三个优点
77. 【问答题】
Hadoop 的核心配置是什么？
第77题：共1考核点合计2分
1. Hadoop核心配置
78. 【问答题】
在Kafka中broker的意义是什么?
第78题：共1考核点合计2分
1. 在Kafka集群中，broker术语用于引用服务器
79. 【问答题】
Spark是基于内存计算的大数据计算平台，试述Spark的主要特点。
第79题：共1考核点合计2分
1. Spark具有如下4个主要特点
80. 【问答题】
试述如下Spark的几个主要概念：RDD、DAG、阶段、分区、窄依赖、宽依赖。
第80题：共1考核点合计2分
1. Spark的几个主要概念
81. 【问答题】
单机（本地）模式中的注意点？
第81题：共1考核点合计2分
1. 单机模式注意点
82. 【问答题】
NameNode和DataNode的功能分别是什么？
第82题：共1考核点合计2分
1. NameNode和DataNode的功能
83. 【问答题】
是否所有的MapReduce程序都需要经过Map和Reduce这两个过程?如果不是，请举例说明。
第83题：共1考核点合计2分
1. 对于关系的选择运算，只需要Map过程就能实现

84. 【问答题】
HDFS中数据副本的存放策略是什么？
第84题：共1考核点合计2分
1. 存放策略

上一题下一题保存答案提交考评
85. 【问答题】
美国加州大学伯克利分校提出的数据分析的软件栈BDAS认为目前的大数据处理可以分为哪三个类型？
第85题：共1考核点合计2分
1. 三个类型
86. 【问答题】
试述数据可视化的重要作用。
第86题：共1考核点合计2分
1. 四种作用
87. 【问答题】
为什么HDFS的块如此之大？
第87题：共1考核点合计2分
1. hdfs的块

88. 【问答题】
解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗?
第88题：共1考核点合计2分
1. Zookeeper是一个开放源码的、高性能的协调服务，它用于Kafka的分布式应用。

上一题下一题保存答案提交考评
89. 【问答题】
hive 内部表和外部表的区别？
第89题：共1考核点合计2分
1. 内部表和外部表的区别
90. 【问答题】
Hive 的 join 有几种方式，怎么实现 join 的？
第90题：共1考核点合计2分
1. 3 种 join 方式
91. 【问答题】
HDFS和传统的分布式文件系统相比较，有哪些独特的特性？
第91题：共1考核点合计2分
1. hdfs的特性

92. 【问答题】
MapReduce中有这样一个原则:移动计算比移动数据更经济。试述什么是本地计算，并分析为何要采用本地计算。
第92题：共1考核点合计2分
1. MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”

上一题下一题保存答案提交考评
93. 【问答题】
Spark的出现是为了解决Hadoop MapReduce的不足，试列举Hadoop MapReduce的几个缺陷，并说明Spark具备哪些优点。
第93题：共1考核点合计2分
1. 三个缺点和三个优点

94. 【问答题】
MapReduce模型采用Master(JobTracker)-Slave(TaskTracker)结构，试描述JobTracker和TasKTracker的功能。
第94题：共1考核点合计2分
1. MapReduce框架采用了Master/Slave架构

上一题下一题保存答案提交考评
95. 【问答题】
Spark已打造出结构一体化，功能多样化的大数据生态系统，试述Spark的生态系统。
第95题：共1考核点合计2分
1. Spark的设计遵循“一个软件栈满足不同应用场景”的理念
96. 【问答题】
试述数据可视化的概念。
第96题：共1考核点合计2分
1. 数据可视化是指将大型数据集中的数据以图形图像形式表示
97. 【问答题】
试述NoSQL数据库的四大类型
第97题：共1考核点合计2分
1. 四大类型
98. 【问答题】
可视化工具主要包含哪些类型？各自的代表产品有哪些？
第98题：共1考核点合计2分
1. 四种类型工具
99. 【问答题】
hbase的特点是什么？
第99题：共1考核点合计2分
1. hbase的特点
100. 【问答题】
试述“Spark on YARN”的概念。
第100题：共1考核点合计2分
1. “Spark on YARN”的概念