01
02
03
04
05
06
07
08
09 多选题
10 多选题
存疑问题

01

单选题（共60题）
1.某项目小组接到一个大数据实时分析项目，且对实时性要求很高。请问以下哪种大数据计算框架最合适？
A、 Flink
B、MapReduce
C、HBase
D、Spark
正确答案：A

2.大数据应用开发流程不包含以下哪项？
A、需求分析
B、可行性分析
C、应用推广
D、技术选型
正确答案：C

3.GaussDB200支持实例故障发生时，业务不中断。因此（）
A、不用担心实例故障带来的影响，无需处理故障问题
B、在实例恢复或主备切换成功之后，能够继续提供服务
C、不用担心CN故障导致SQL执行失败，保证SQL100%执行成功
D、实例故障之后GaussDB200会自动重启，无需人为关注
正确答案：B

4.数据库架构设计SharedEverying是指服务器的所有资源（包括磁盘、CPU、显卡、网络）都共享
A、正确
B、错误
正确答案：A

5.列存表的辅助表CUDesc也是列存表
A、正确
B、错误
正确答案：B

6.RedisServer收到非归属本节点的KEY操作，会将请求转发到正确的节点上
A、正确
B、错误
正确答案：A

7.Flink的Checkpoint机制绘制的流应用快照不能被保存在以下哪个位置？
A、 Local
B、HDFS
C、TaskManager的内存
D、Joblanager的内存
正确答案：C

8.向HBase插入数据，只可使用put-种方法。
A、正确
B、错误
正确答案：B

9.GraphBase每个节点只能有一个VertexLabel
A、正确
B、错误
正确答案：A

10.任何完整的大数据平台，一般包括以下的几个过程，数据采集->数据存储>数据处理->数据展现（可视化，报表和监控）
其中，数据采集是所有数据系统必不可少的个环节，随着大数据越来越被重视，数据采集的挑战也变的尤为突出
A、正确
B、错误
正确答案：A

11.大数据分析结果可直接用于项目决策，不需要行业专家参与。
A、正确
B、错误
正确答案：B

12.Cloudera是Hadoop商业版的发布公司
A、正确
B、错误
正确答案：A

13.Elasticsearch默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘
A、正确
B、错误
正确答案：A

14.实时检索部署不仅支持双平面组网，，也支持单平面组网
A、正确
B、错误
正确答案：A

15.F1ume中基于WAL预写式日志Write-AheadLog）实现Channel持久化的是？
A、 Memory Charnel
B、 Kafka Channel
C、File Channel
D、JDBC Channel
正确答案：C

16.Flink的哪种机制可以保证task运行失败时，其状态能够恢复？
A、窗口
B、有状态处
C、理事件时间
D、检查点
正确答案：D

17.以下关于StreamExecution持续查询过程的描述哪项是正确的？
A、获取最新敛据oftsets—-oftsets与入ottsetLog—构道LogicalPlan—优化LogicalPlan—计算完成commit—计算结果Sink
B、offsets写入offsetLog—获取最新数据offsets-构造LogicalPlan-优化LogicalPlan—计算结果Sink—计算完成commit
C、获取最新数据offsets—offsets写入offsetlog—构造LogicalPlan—优化LoqicalPlan—计算结果Sink—计算完成comit
D、获取最新数据ofsets—offsets写入ofsetL.og—优化Logica1Plan—构造LogicalPlan—计算结果Sink—计算完成commit
正确答案：C

18.Redis中String数据类型不含以下哪种操作？
A、 Mget
B、size
C、strlen
D、append
正确答案：B

19.以下选项不属于Flume的特点的是？
A、支持定制各类方数据发送
B、支持结构化、非结构化数据源
C、支持多级联操作
D、支持数据实时检索
正确答案：D

20.Gateway在ElasticSearch中的含义是？
A、网关
B、素引的存储方式
C、rpc请求接
D、索引快照的存储方式
正确答案：A

21.当读取HBase表时，只要求返回C1的列值，使用下列哪个选项可以实现该功能？
A、ValueFilte
B、ColumnFilter
C、RowFilter
D、QualifierFilter
正确答案：D

22.Elasticsearch采用的搜索方式是？
A、倒排索引
B、快速索引
C、正排素引
D、慢素引
正确答案：A

23.当Spark发生Shuffle时，MapTask的运算结果会通过（）的形式把运算结果分发到对应的任务上去
A、序列化
B、键值对
C、二进制
D、RDD
正确答案：B

24.数据仓库仅仅是提供存储的，提供一种（）的服务，不面向最终分析用户：而数据集市是（）的，面向最终用户。
A、面向分析应用、面向数据管理
B、面向事务交互、面向数据管理
C、面向数据管理、面向分析应用
D、面向分析应用、面向事务交互
正确答案：A

25.以下关于HDFS适合做什么描述正确的是
A、低延退读取
B、大文件存储
C、大量小文件存储
D、随机写入
正确答案：B

26.一般来说，以下哪项不是大数据应用开发必备的能力？
A、理解相关业务背景
B、掌握机房硬件运维技巧
C、具备JAVA/Scala编程能力，熟悉SQL
D、熟悉Linuxshell命令
正确答案：B

27以下哪项不属于数据存储组件？
A、HBase
B、 Storm
C、HDFS
D、MySQL
正确答案：B

28.以下哪个框架可以同时满足实时分析、高线分析、实时检素的功能？
A、Apache Hadoop
B、Fusionlnsight HD
C、Apache HBase
D、以上全都正确
正确答案：B

29.以下哪项不提供交互式查询服务？
A、 Presto
B、Impala
C、Echart
D、Kylin
正确答案：C

30.若要查询表，下列API哪个最先被调用？
A、 createCornection（）
B、getAdmin（）
C、getTable （）
D、getConnect （)
正确答案：A

31.ElasticSearch存放所有关键词的地方是
A、字典
B、关键词
C、词典
D、素引
正确答案：D

32.Elasticsearch是怎么实现Master选举的？
A、借助ZooKReper选举
B、内部自行选举
C、随机生成
D、自行指定
正确答案：A

33.公安行业中实时检索不适用于以下哪个场景？
A、实时布控
B、快速信息汇集
C、评估嫌疑人犯罪概率
D、车辆信息查询
正确答案：C

34.Loader页面是基于（）开源的图形化数据迁移管理工具。
A、 Hadoop
B、Hue
C、Kettle
D、 Sqoop
正确答案：D

35.（）是一个实现了文件系统的抽象类，继承自org.apache.hadoop.conf.configured.并实现了Closeable接口，可以适用于多种文件系统。
A、FSDatalnputstream
B、 FileConfiguration
C、FSDataOutputstream
D、 FileSystem
正确答案：C

36.Action是RDD的算子的一个类型，不可以将结果写入（）
A、磁盘
B、 CPU
C、HDFS
D、数据库
正确答案：B

37.关于批量数据处理组件的描述不正确的是？
A、Hive:传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处理速度较慢
B、SparkSQL:新型SSQL批处理引擎，用于处理SQL类批处理作业，适合海量数据，处理速度高效
C、Spark：新型批处理引擎，可以用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，适合海量数据，处理速度高效。
D、MapReducer传统批处理引整用于处理非SOL类，尤其是数据挖掘和机器学习类批处理作业，使用广泛，海量数据下表现不稳定，但是处理速度较快。
正确答案：D

38.关于HDFS的文件块的描述不准确的是？
A、文件块越大寻址时间越知短。
B、文件块（片）被存在哪个集群；谁有权限查看.修改这个文件等信息放在元数据Metadata中。
C、文件块的大小设置原则：最大化寻址开销
D、HDFS文件块的大小在1.0版本时是64，在2.0的时候是128M
正确答案：A

39.关于Spark中RDD的描述不准确的是
A、RDD可以从HDFS输入创建，或从与Hadoop兼容的其他存储系统中输入创建
B、Spark的所有Transforn操作都是基于RDD来实现的。
C、RDD是只读和可分区的，要想对RDD进行操作，只能重新生成一个新的RDD
D、当前RDD默认是存储于内存，当内存不足时，RDD也不会溢出到磁盘中
正确答案：D

40.银行进行客户购买力分析.首先获取客户历史账单，确定其中各项商品的计算权重，得出每位客户的购买力评分并存储记录，最后将结果以图表显示。请问该过程对应于以下哪个项目数据流程设计。
A、数据可视化->数据源->数据落地->数据处理
B、数据源-数据落地->数据处理->数据可视化
C、数据源->数据处理->数据落地->数据可视化
D、数据可视化->数据源->数据处理>数据落地
正确答案：C

41.某项目小组接到一个大数据实时分析项目，且对实时性要求很高。请问以下哪种大数据计算框架最合适
A、MapReduce
B、HBase
C、Spark
D、Flink
正确答案：D

42.ETL工具工作过程不包含以下哪项？
A、清洗
B、传递
C、加载
D、转换
正确答案：B

43.下列关于存储过程中的变量说法正确的是（）？
A、声明变量时需要指定变量的初始值
B、变量的作用域是全局
C、变量必须先声明后使用
D、声明变量时需要指定变量的数据类型
正确答案：C

44.GaussDB200在创建表时，需要注意以下哪些事项（）？
A、创建列存表之后，后续可以修改为行存表
B、创建列存表时压缩级别默认为HIGH.
C、如果指定表空间为普通表空间，创建表时默认是行式存储
D、创建行存表之后，后续可以修改为列存表
正确答案：C

45.下列关于GaussDB200的数据类型转换说法正确的是（）
A、如果需要保留空字符串时，需要新建兼容性为Postgres的数据库
B、在查询中，对常量不需要显式指定数据类型
C、在ORACLE兼容模式下，在导入数据时，空字符串会自动过滤
D、不同数据类型比较或转换时，使用强制类型转换，以防隐式类型转换结果与预期不符
正确答案：D

46.创建分支语句如下CREATE OR REPLACE PROCEDURE proc case.branch(pi_result in integer pi_return out integer）ASBEGINCASE pi result WHEN 1THEN pi_return ：= 1:WHEN 2 THEN pi_return:= 3:WHEN 3 THEN pi return:5:WHEN 6THENPi return:-7: WHEN 7 THEN pi return :P 9:ELSEPi return:= O:END CASE:Raise info pi return: %pi returnEND
执行如下语句CALLproccasebranch（3，2）的返回结果是（）。
A、4
B、3
C、5
D、2
正确答案：C

47.有如下存储过程，CREATEOR REPLACE PROCEDUREprc_1（paranlIN INTEGER DEFAULT 3.param2IN OUTINTEGER）ASBEGINParam2：=paraml+param2；RETURN：END：调用如上存储过程callprc_1（2，1）结果是（)
A、1
B、2
C、4
D、3
正确答案：D

48.当前传统关系型数据库主要面临的挑战是（)
A、数据量爆炸式增长，要求数据处理平台具备弹性扩展能力。
B、数据处理时效性需求提高，要求数据处理平台速度够快
C、多类型数据融合，要求数据处理平台功能更加强大。
D、以上全都正确
正确答案：D

49.对于HBase表设计描述错误的是？
A、一张表可以创建多个ColumnFamily
B、TTL默认为一天
C、Region建议预先创建
D、MaxVersion无法人为修改
正确答案：D

50.哪个不是Hbase的操作语法？
A、create'my_tb', info
B、list
C、 create table tb1 (id int ,name string)
D、scan my
正确答案：C

51.Flume传输数据过程中，为了防止数据不丢失，使用的Channel类型是？
A、Memory Channel
B、 File Channe
C、JDBC Channe
D、HDFS Channel
正确答案:：B

52.对融合数仓解决方案描述正确的是？
A、数仓与大数据的并行架构
B、低成本高扩展性的传统数仓架构
C、以数仓为核心，大数据平台为延伸的融合架构
D、大数据平台为核心的架构
正确答案：C

54.GaussDB200数据并行导入Shared策略支持的数据格式是？
A、CSy
B、Text
C、FIXED
D、Sea
正确答案：B

55.哪个不是ElasticSearch生态圈中的技术？
A、beats
B、Logstash
C、Flume
D、kiana
正确答案：C

56.HBase的物理存储单元是什么？
A、Region
B、Column family
C、 Column
D、Row
正确答案：B

57.哪种不是Flink提供的部署方式？
A、Cluster
B、Cloud
C、VM
D、Local
正确答案：C

58.以下哪个不是离线批处理的核心诉求？
A、处理数据格式多样
B、处理教据量巨大
C、支持SQL类作业和自走义作业
D、处理时间要求高
正确答案：D

59.某公司大数据业务存在多种计算任务，包括使用CPU，GPU等多种异构计算芯片，为了保证资源的合理利用调度，可以依据
华为云Stack架构，构建一站式平台，资源统一管理，按需分配。
A、正确
B、错误
正确答案：A

60.大数据技术的4V特征不包括以下哪项？
A、Virtual
B、Velocity
C、Variety
D、 Volume
正确答案：A

02

单选题（共60题）
1.以下关于ElasticSearch缓存机制的理解不正确的是（）
A、缓存主要分为三种，QueryCache,FielddataCache，RequestCache。
B、RequestCache:Shards级别的缓存，是为了缓存“分片级”的本地结果集
C、FielddateCaChe:专门针对分词的字段在查询期间的数据结构的缓存
D、QueryCache:shard级别的缓存，是对一个查询中包含的过滤器执行结果进行缓存
正确答案：D

2.大数据技术的解决方案思路是聚焦在单台机器上，思考如何提升单机的性能，，寻找更贵更好的服务器
A、正确
B、错误
正确答案：B

3.企业数据分析平台在根据不同的业务场景需求，搭建不同的大数据分析平台，如适应离线批处理的Hadoop平台；适应实时处理的流计算平台等，这种架构属于哪种类型的架构？
A、分离架构
B、单一架构
C、融合架构
D、多维架构
正确答案：A

4.大数据场景中对于数据的大小而言指的是数据的总量需要大，对于数据的数量要求不高
A、正确
B、错误
正确答案：B

6.以下关于公共安全行业专题分析与查询业务场景描述错误的选项是（）
A、临时交互式查询任务对数据进行精确或者模湖查询
B、适用标准SQL语句进行查询，根据查询结果筛选目标人群，侦动案件。
C、数据湖内多个数据源只能单独访问再呈现结果
D、原始数据经过批处理后结果写入到指定的文件目录，供交互时查询。
正确答案：C

7.某大数据运维人员想通过shell命令上传某个文件至HDFS文件系统中。以下哪个命令能帮助他完成这个操作？
A、-cat
B、-upload
C、put
D、get
正确答案：C

8.以下对于离线批处理的概念理解错误的是哪一项？
A、离线批处理针对的数据量较大
B、离线批处理占用的内存资源较多
C、蓄线批收处理对数据处理的时延要求不高
D、离线批处理通常MR作业，Spark作业或者HQL作业实现
正确答案：B

9.某公司在进行大数据离线批处理平台的前期技术选型，以下哪个大数据组件不属于离线批处理业务所涉及到的组件？
A、HDFS
B、 Spark
C、Storm
D、Hive
正确答案：C

11.Spark执行效率高的一个关键因素是在处理数据时产生的中间产物（计算结果）存放在内存中，减少了对磁盘的I/O操作
A、正确
B、错误
正确答案：A

12.某大数据业务人员对某些数据创建Hive表结构，其中某个数据为时间类型yyyyMMdd，那么可以使用以下哪一项作为字段类
型？
A、varcahr
B、 string
C、double
D、int
正确答案：B

14.以下关于Sqoop数据导入原理的描述中，错误的是哪一项？
A、rum-mappers越大效率越高。
B、Sqoopi在import时，需要指定split-by参数
C、Sqoopi根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中
D、Sqoop:会根据传入的num-mappersa来确定划分几个区域。
正确答案：A

15.GES既支持分布式部署也支持单机部署。
A、正确
B、错误
正确答案：A

16.下面这段代码的作用是什么？

A、创建索引
B、删除索引
C、维护亲引
D、更新索引
正确答案：A

17.关于GES技术原理，下列错误的是哪一项？
A、基于ElasticSearch的索引机制，能根据索快速查间数据
B、基于Yarn的资源调度，可以并行执行多任务
C、基于Spak的分布式内存计算技术，支持数据快速导入
D、基于HBase的分布式存储机制，能够处理海量数据
正确答案：B

18.对ElasticSearch检索流程描述正确的是（）
A、分片节点汇总结果发送给客户端
B、检索节点汇总结果发送给客户端
C、检索节点不需要汇总结果直接把结果发送给客户端
D、分片节点不需要汇总结果直接把结果发送给客户端
正确答案：B

19.ElasticSearch的recovery在集群新增或删除节点时发生。
A、正确
B、错误
正确答案：A

20.以下关于HBase中HRegionServer的功能描述不正确的是哪一项？
4、管理所有的ReqionRegiont可以在RegionServer之间迁移
B、HBase的数据处理和计算单元
C、RegionServer是HBase的数据服务进程，负责处理用户数据的读写请求。
D、RegionServer-一般与HDFS集群的NameNodei部署在一起，实现数据的存储功能
正确答案：B

21.HBase不支持以下哪些SQL操作？
A、Spark SQL
B、Hive SQL
C、MySQL
D、Phoenix SQL
正确答案：C

22.以下哪一选项不属于MRS日常运维不影响业务这一特性？
A、滚动升级/补丁
B、修改配置滚动重启
C、单集群跨AZ高可用
D、扩缩容业务无感知
正确答案：C

23.以下描述中，哪一个选项属于HDFS的使用场景？
A、海量气象数据存储
B、社交媒体数据流式分析
C、数据采集与开发
D、集群资源调配管理
正确答案：A

24.HiveSQL中DDL指定是哪一种语言？
A、数据删除语言
B、数据管理语言
C、数据查询语言
D、数据定义语言
正确答案：D

25.离线批处理应用一般通过Storm完成数据的计算和分析
A、正确
B、错误
正确答案：B

26.大数据的4V不包含哪一个？
A、数据量大
B、种类多
C、价值密度低
D、分布式
E、处理速度快
正确答案：D

27.GaussDB200支持什么格式的数据存储？
A、行存储
B、列存储
C、行列混存
D、以上都对
正确答案：D

28.ElasticSearch进行全文检索一般需要哪几个步骤？
A、清洗、分词、建立素引
B、清洗、分词
C、清洗、建立素引
D、清洗、建立素引、分词
正确答案：A

29.某开发小组计划利用GraphBase实现一些功能，以下哪些功能可以实现？
A、物流最优路径规划
B、社交分析
C、金融反欺诈
D、以上全都正确
正确答案：D

30.假设现在要做一个可以根据线索指导运维人员进行排障的功能，你建议选择下列哪个工具实现该功能？
A、Lucene
B、HBase
C、ElasticSearch
D、GraphBase
正确答案：D

31.Flume的高级组件不包含以下哪个？
A、 Sink Processor
B、 Channel Interceptor
C、Channel Selector
D、 Source Interceptor
正确答案：B

32.Redis不适用于以下哪个应用场景？
A、获取PB级Value数据
B、获取TOPN操
C、作获取手机验证码
D、获取最新N个数据的操作
正确答案：A

33.Flink的窗口，按窗口行为划分不包含以下哪种？
A、容量窗口
B、滑动窗
C、滚动窗口
D、会话窗口
正确答案A

34.关于GaussDB200的数据导入导出下列说法正确的是？
A、使用gsql元命令和COPY命令在使用和用法上是一样的。
B、GDS在数据导入时可以做预处理，比如非法字符替换、容错处理、数据聚合等
C、COPY方式使用简单，一般用在大量数据的导入导出中
D、INSERT数据写入适合数据量不大，并发度不高的场景。
正确答案：B

35.关于GaussDB200的发展史，下列说法错误的是（？
A、GaussDB200已经在华为云发布了云化产品
B、GaussDB200专注国内业务，不涉及海外。
C.GaussDB200从一开始就支持ARM架构的部署。
D、GaussDB200前身叫GaussDB，是GaussDB的子项目
正确答案：B

36.下列关于存储过程的特点说法正确的是（）
A、编写的SQL存储在数据库中，因此执行速度快
B、创建时编译，执行时调用，因此开发效率高
C、用户创建的存储过程或自定义函数可以重复调用，因此数据传输量少
D、通过指定存储过程的访问权限，因此安全系数高
正确答案：D

37.离线批处理方案的应用场景不包括
A、占用计算存储资源多
B、快速高效，实时的数据处理
C、数据处理格式多样
D、处理大规模数据
正确答案：B

38.以下关于DataNode的描述不正确的是？
A、DataNode管理数据块元数据
B、DataNode执行数据块的读/写操作。
C、DataNode的数量受数据规模影响
D、DataNode是用来存储数据库
正确答案：C

39.若要修改HBase表，下列API哪个最先被调用？
A、 createConnection()
B、getTable()
C、getConnect ()
D、 getAdmin()
正确答案：D

40.一般情况下，若要提高ElasticSearch检索效率，可以采取什么操作？
A、调整索引分片数
B、使用Hive做底层存储
C、压缩索引
D、正价EsMaster节点
正确答案：A

41.下列代码的作用是？String vertexld=getVertexldByProperty(api.graphName,"person","name","marko"); api.queryVertex(vertexldgraphName)
A、查询点
B、查询属性
C、查询边
D、以上全不正确
正确答案：B

42.Flume中一个ChannelSelector的作用是什么？
A、设置多个channel发往多个sink的策略
B、设置一个source发往多个channel的策略
C、设置多个source发往多个channel的策略
D、设置一个channel发往多个sink的策略略
正确答案：B

43.下面这条GaussDB200语句"call dbms_job.interval(1,sysdate+1.0/24);"的意思是
A、修改Job1的interva为每隔24小时执行一次。
B、修改Job1的lnterval为每隔1小时执行一次。
C、修改Job1的lnterval为每隔1/24小时执行一次
D、修改Job1的lnterval为每隔24分钟执行一次。
正确答案：B

44.关于GaussDB200的逻辑架构，下列说法正确的是
A、DN是实际数据节点，所以只负责存储数据
B、CN是协调节点，协助CM管理整个集群
C、CM是集群的管理模块，那么负责集群的日常管理和运维
D、GTM是全局事务控制器，负责生成和维护全局事务ID等全局唯一信息
正确答案：D

45.从数据库架构设计来看，主要有以下哪些设计思路
A、 Shared-Disk
B、 Shared-Everying
C、 Shared-Nothing
D、以上全正确
正确答案：D

46.Kettle中有两种脚本文件transformation（转换ktr结尾）和job（任务kjb结尾）
A、正确
B、错误
正确答案：A

48.离线批处理，通常是指对海量数据进分析和处理，形成结果数据，供下一步数据应用使用，离线处理对处理时间要求不高。
A、正确
B、错误
正确答案：A

49.GaussDB200创建数据库时默认支持的字符集是UTF-8
A、正确
B、错误
正确答案：B

50.和MySQL一样，GaussDB200可以通过databasename.table的方式访问不同数据库中的表
A、正确
B、错误
正确答案：A

51.物理集群包含逻辑集群。
A、正确
B、错误
正确答案：A

52.Structuredstreaming中逻辑计划的优化是通过Catalyst优化器完成
A、正确
B、错误
正确答案：A

53.StructuredStreaming可以将过去的输入流缓冲为流状态，以便将每个未来输入与过去的输入相匹配，从而生成流连接结果。
A、正确
B、错误
正确答案：A

54.幕等操作是指同操作发起的一次或多次请求返回的结果是不一致的。
A、正确
B、错误
正确答案：B

55.ElasticSoarch中，只要一个shard请求成功即可向用户返回Success消息
A、正确
B、错误
正确答案：B

56.Kafka中每个Topic都由一个或者多个Partitions构成，Partition数量决定了每个Consumergroup中实际工作的并发消费者的最大数量。
A、正确
B、错误
正确答案：A

57.因不同的数据类型存储的空间大小不一样，所以在选择数据类型时，只需考虑数据类型损耗的存储空间大小。
A、正确
B、错误
正确答案：B

58.GaussDB200通过ExtensionConnector可以跨集群访问Oracle数据库.MySQL数据库.Spark和其他GaussDB集群
A、正确
B、错误
正确答案：A

59.在DWS服务中，通过GDS并行导入数据时，需要明确DWS的集群IP地址
A、正确
B、错误
正确答案：B

60.GaussDB200的自适应调度和大数据的YARN调度是类似的，都是根据作业的所耗资源，按照作业优先级，并优先满足损耗资源少的作业，保证资源的充分利用。
A、正确
B、错误
正确答案：A

03

1.离线批量的作业形式：可以通过例如HOL和SparksQL的命令，也可以通过API编写代码，打包提交运行
A、正确
B、错误
正确答案：A

2.针对不同的数据来源，需要先分析其数据特征，例如一般网站产生的日志特点是数据量大，价值密度高，数据的业务种类多且函盖之前的数据。
A、正确
B、错误
正确答案：B

4.ElasticSearch作为全文检索的引擎，其功能强大，也可以作为NoSQL数据库使用，能满足海量数据存储的需要，也满足主键
和多级索引的实时查询
A、正确
B、错误
正确答案：A

5HBase支持Rowkey查询和二级素引查询
A、正确
B、错误
正确答案A

6.GraphBase既支持分布式部署也支持单机部署
A、正确
B、错误
正确答案：A

7.创建ElasticSearch素引前，要先判断素引是否存在。
A、正确
B、错误
正确答案：A

8.ElasticSearch倒排索引是通过关键词查询对应的文档编号，再通过文档编号找文档
A、正确
B、错误
正确答案：A

9.Oracle数据库依据它自身的发布形态，既可以做OLAP也可以做OLTP
A、正确
B、错误
正确答案：A

10.Flink是个批处理和流处理结合的统一计算框架
A、正确
B、错误
正确答案：A

11.Flume不支持多级联操作。
A、正确
B、错误
正确答案：B

12.Flume的一个Source可以和多个Channel关联
A、正确
B、错误
正确答案：A

13.HDFS中的DataNode用于存储实际的数据，将自己管理的数据块上报给Client运行多个实例
A、正确
B、错误
正确答案：A

14.GraphBase可以完全替代关系型数据库。
A、正确
B、错误
正确答案：B

16.Structured Streaming的行列数据表格是一直无限增长的
A、正确
B、错误
正确答案：B

17.Flink是Apache社区孵化的项目。
A、正确
B、错误
正确答案：A

19.实时检索查询只能查询结构化数据
A、正确
B、错误
正确答案：B

20.CTID的值是增量增加的
A、正确
B、错误
正确答案：A

21.INSERT语句在数据导入时效率比较低，因此不要使用INSERT的方式来对数据表的写入
A、正确
B、错误
正确答案：B

22.GaussDB200在内部使用行标识符（CTID）记录数据在表中的逻辑位置。
A、正确
B、错误
正确答案：B

23.ElasticSearch不支持结构化数据存储。
A、正确
B、错误
正确答案：B

24.Redis默认支持14个数据库。
A、正确
B、错误
正确答案：B

25.Flink仅支持基于时间窗口操作
A、正确
B、错误
正确答案：B

26.大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集
A、正确
B、错误
正确答案：A

27.实时数据处理的的关键意义在于能够更快地提供数据洞察
A、正确
B、错误
正确答案：A

28.HBase是一种分布式数据库，不依赖HDFS也可以运行。
A、正确
B、错误
正确答案：A

29.大数据可以用于流行病预测
A、正确
B、错误
正确答案：A

30.离线批处理通常通过MR作业、Spark作业或者HQL作业实现
A、正确
B、错误
正确答案：A

31.实时流处理对时延的要求不高
A、正确
B、错误
正确答案：B

32.应用开发需要进行需求分析，包括需求调研和市场调研
A、正确
B、错误
正确答案：A

33.技术选型时应该采用最新的技术不需要考虑技术的稳定性
A、正确
B、错误
正确答案：B

34.服务器选型可以选择云主机和物理机。
A、正确
B、错误
正确答案：A

35.Hive是大数据SQL批处理引擎，用于处理SQL类批处理作业，但是处理速度较慢
A、正确
B、错误
正确答案：A

36.Hive在删除表的时候，内部表的元数据和实际数据不会被一起删除
A、正确
B、错误
正确答案：B

37.Hive构建数据仓库时通常需要进行分层
A、正确
B、错误
正确答案：A

38.Spark2.0中引入了SparkSession的概念，为用户提供了一个统一的切入点来使用Spark的各项功能。
A、正确
B、错误
正确答案：A

39.SparksQL可以进行实时查询
A、正确
B、错误
正确答案：B

40.Sqoop主要用来做实时流处理
A、正确
B、错误
正确答案：B

41.Sqoop可以用于Hadoop（Hive）与传统的数据库（MySQL.PostgresQL..）间进行数据的传递
A、正确
B、错误
正确答案：A

42.Loader不能提供图形化操作。
A、正确
B、错误
正确答案：B

43.本实验的网站日志数据需要存放到HDFS
A、正确
B、错误
正确答案：A

44.本实验的数据源包含网站日志数据和数据库业务数据。
A、正确
B、错误
正确答案：A

45.Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，例如可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。
A、正确
B、错误
正确答案：A

46.alter table tableName set tblproperties(EXTERNAL'='FALSE');执行该Hive命令能实现以下哪一个目标？
A、修改外部表tableName为内部表
B、删除tableName表的元数据信息
C、修改内部表tableName为外部表
D、移动tableName数据到外部存储系统
正确答案：A

47.在进行HDFS元数据持久时，NameNode可以周期性触发EditLog和Fslmage的合并。
A、正确
B、错误
正确答案：A

48.Sqoop进行数据导出时，也会进行数据文件切片，与MapReduce切片类似，可以通过修改参数block块大小进行切片数量优化。
A、正确
B、错误
正确答案：B

49.下列关于Hive自定义函数的描述中，正确的是哪一项？
A、Hive中的min以及max属于UDAF的函数
B、一般自行编写的函数都属于临时函数每次使用都需要重新创建
C、一般自行编写的函数都属于永久函数直接引用即可
D、如果创建的函数名与内置的函数名重复在使用过程中以内置的函数名为主
正确答案：B

50.在HBase中，同一个Key值可以关联多个Value，每一个KeyValue都拥有一个Qualifier标识。
A、正确
B、错误
正确答案：A

51.ElasticSearch不支持SQL语句查询数据
A、正确
B、错误
正确答案：B

52.华为云GES图搜索引擎服务可以为知识图谱技术提供数据存储和查询功能
A、正确
B、错误
正确答案：A

53.关于HBase的RegionSplit，以下描述中错误的是哪一项？
A、RegionSplit过程不需要HMasteri进行管理
B、在建表时可以预先创建多个Region
C、将大表分裂出多个Region有助于提高数据的读写效率
D、RegionSpliti速度很快，因为并没有真正拆分数据
正确答案：A

54.HBase依赖于Zookeeper完成主备选举，以及管理root表
A、正确
B、错误
正确答案：A

55.在HBase表中，通过行、列族和列限定符确定一个单元格（cell），且表中存储的数据需要严格定义好数据类型，比双Name
列需定义为string类型，且定义之后就不能修改
A、正确
B、错误
正确答案：B

56.Filter主要在Scan和Get过程中进行数据过滤，通过设置一些过滤条件来实现
A、正确
B、错误
正确答案：A

57.在使用HBaseJavaAP时，用户可以通过org.apache.hadoop.hbase.client.Admin实例的createTable快速建表，创建表后，整张表只有一个Region，随着数据量的增加会自动分裂成多个Region。
A、正确
B、错误
正确答案：B

58.关于实时检索技术的应用场景，以下描述中错误的是哪一个选项？
A、公安系统数据量大、业务要求复杂，因此无法借助实时检索技术提高处警效率
B、实时检索要求在小批量数据集上需达到毫秒级的时延
C、在金融风控场景中，利用实时检索技术，客户可以在发生危险交易前及时上损
D、运营商可以借助实时检索技术，查询某个时间段用户的流量记录，以应对不良APP偷跑流量引发的投诉
正确答案：A

59.关于HBase建表语句，以下描述中错误的是哪一项？
A、在华为云MRS提供的HBaseshell客户端中建表时，需指定至少一个列族名称
B、利用HBase的JavaAPI时，需要用put语句完成建表
C、在HBaseshell客户端中可以通过create命令建表
D、在建表时可以预先创建多个Region
正确答案：B

60.实时处理的步骤中，实时计算的前一步是以下哪一项？
A、实时展示
B、实时缓存存储
C、实时采集
D、实时落地
正确答案：B

04

Producer通过Push的方式将消息发送到Broker。
A、正确
B、错误
正确答案：A

2.Kafka集群必须依赖于下列哪一个组件？
A、HDFS
B、Yarn
C、Flume
D、 Zookeeper
正确答案D

3.flushall可以清空Redis实例下所有数据库的数据
A、正确
B、错误
正确答案：A

4.Flume中轮询调度（RoundRobinScheduling）算法简洁，无需记录当前所有连接的状态
A、正确
B、错误
正确答案：A

5.Redis中List是一个有序的字符串列表，列表内部实现是使用双向链表（linkedlist）实现的。
A、正确
B、错误
正确答案：A

6.Flink处理数据是无状态的，处理一个事件与之前的事件无关
A、正确
B、错误
正确答案：B

7.关于RDD，下列说法错误的是哪一项？
A、RDD具有血统机制（Lineage）
B、RDD默认存储在磁盘。
C、RDD是一个只读的，，可分区的分布式数据集
D、RDD是Spark对基础数据的抽象
正确答案：B

8.Kafka日志数据文件默认保留的最长时间是多少小时？
A、96
B、48
C、24
D、168
正确答案：D

9.在Flume架构中，以下哪一种类型的Sink支持将数据写入到Solr中？
A、thift sink
B、hdfs sink
C、 file roll sink
D、MorphlineSolr sink
正确答案：D

10.以下关于Hive内置函数描述正确的是（）
A、descfunctionsupper:查着系统自带的函数
B、todate（）获取当前日期
C、substr）：求字符串长度
D、trim():去除空字符串
正确答案：D

11.在HDFS里，若打开其回收站机制，则删除文件时，文件不会立即彻底被删除
A、正确
B、错误
正确答案：A

13.对Base集群架构组成部分描述错误的是（）。
A、正常HBase表只有一个Region，随着数据增多Region不断分裂变成多个，Region的拆分非常慢
B、Client包含访问HBase的接口，同时缓存维护已经访问过的Region的位置信息
C、HMaster主要负责表和Region的管理工作，Region的负戴均衡
D、HRegionServer是Base的数据服务进程，负奏处理用户的数据读写请求
正确答案：A

14.编写Scala代码时，通过以下哪个算子可以实现数据过滤？
A、flatmap
B、 collect
C、 Filter
D、map
正确答案：C

15.HDFS默认的副本是几份？
A、5
B、3
C、6
D、4
正确答案：B

16.某大数据业务人员需针对某些数据创建Hive表结构，其中某个数据为时间类型yyyyMMdd，那么可以使用以下哪一项作为字段类型？
A、Int
B、double
C、string
D、varcahr
正确答案：C

17.在处理HiveSQL出现的数据倾斜问题时，，可以尝试着设置参数hive.map.aggr为true，此时生成的查询计划会有两个MRJob，可实现数据何倾斜时负载均衡
A、正确
B、错误
正确答案：A

18.离线批处理常用的组件不包括（）
A、 Spark
B、IHive
C、Flume
D、Storm
正确答案：D

20.ElasticSearch支持边写边读。
A、正确
B、错误
正确答案：A

21.HBase为什么适用于海量数据存储？
A、支持列存表
B、集群规模小
C、HDFS做底层存储
D、多列族特性
正确答案：C

22.实时检索的金融场景应用中，可以查询交易凭证，追湖交易，以及查询客户信用记录，帮助客户快速借款。
A、正确
B、错误
正确答案：A

23.下列哪个选项可用于查询ElasticSearch的索引？
A、curl-XGET“http://ip:httpport/_cluster/health？ pretty
B、curl-X GEThttp://ip:httpport/name/type/indexID？ pretty
C、curl-XPOST http://ip:httpport/name/type/indexlD？ pretty-H'Content- Type:application/ison-d1
D、curl-X GEThttp://ip:httpport/_cat/indices？
正确答案：B

24.HBase支持完整的事务机制。
A、正确
B、错误
正确答案：B

25.Gremlin支持同步提交和异步提交
A、正确
B、错误
正确答案：A

26.ElasticSearch默认是把索引存放在磁盘
A、正确
B、错误
正确答案：B

27.GES通过图数据库引擎将数据通过算框架导入HBase和Spark进行存储。
A、正确
B、错误
正确答案：B

28.某电商网站想要实现热销商品的实时TOpN排名，可以使用哪种技术实现？
A、Elasticsearch的快速检素
B、HBase的rowkey索引
C、Hive的关联查询分析
D、Redis的排序计算
正确答案：D

29.HBase中数据存储的文件格式是下面哪一项？
A、SequenceFile
B、Hfile
C、TextFile
D、 HLOg
正确答案：B

30.ElasticSearch可通过分片副本来优化性能，下列策略错误的是哪一项？
A、分片数不超过节点数的3倍，用较少的分片获得更佳的性能
B、副本数至少设置为3，保障数据的可靠性
C、副本数建议设置为1，过多的副本需要更多存储空间
D、分片最大容量不要超过ElasticSearch推荐的最大JVM堆空间32G
正确答案：B

31.若要对图片进行检索，一般选择什么工具较好？
A、MySQL
B、HDFS
C、ElasticSearch
D、Hive
正确答案：C

32.在Kafka集群中，Kafka服务端的角色是下列哪一项
A、Producer
B、 Zookeeper
C、Consumel
D、Broker
正确答案：D

33.实时布控场景中，数据实时采集可以通过警务数据共享交换平台与边界平台，实时获取出行/住宿/通讯/视频数据
A、正确
B、错误
正确答案：A

35.Flume在多路传输数据过程中，如果下一跳的Flume节点故障或者数据接受异常时，可以自动切换到另外一路上继续传输
A、正确
B、错误
正确答案：A

36.以下哪种机制使Flink能够实现窗口中无序数据的有序处理？
A、窗口
B、有状态处理
C、检查点
D、事件时间
正确答案：D

37.为了减少磁盘写入的次数，Broker会将消息暂时buffer起来，当消息的个数达到一定阀值时，再flush到磁盘，这样减少了磁盘IO调用的次数。
A、正确
B、错误
正确答案：A

38.实时流处理系统中，当系统处理能力出现瓶颈后，可通过节点的水平扩展提升处理性能
A、正确
B、错误
正确答案：A

39.lrange是Redis中哪种数据类型的命令？
A、Set
B、 String
C、 List
D、Hash
正确答案：C

40.Redis是个多线程模型，客户端的命令是异步执行的
A、正确
B、错误
正确答案：B

41.Spark读取任务参数的优先级是（）
A、代码配置>动态参数>配置文件
B、动态参数>代码配置>配置文
C、配置文件>代码配置>动态参数
D、动态参数配置文件>代码配置
正确答案：A

43.Flink的Checkpoint机制绘制的流应用快照不能被保存在以下哪个位置？
A、 Local
B、TaskManager的内存
C、JoblManager的内存
D、HDFS
正确答案：B

44.某学生正在学习ElasticSearch，请你帮他分析下，下列代码的作用是什么？

A、插入数据，更新素引
B、插入数据，创建素引
C、更新素引
D、创建数据
正确答案：B

46.智能数据湖运营平台指的是以下哪个选项？
A、VAS (video Analysis Service）
B、ModelArts
C、cSS
D、DAYU
正确答案：D

48.高频交易，市场與情分析，信贷风险分析等这些金融领域的研究内容均可以利用大数据技术进行分析。
A、正确
B、错误
正确答案：A

49.数据湖需要高性能、Schema校验、事务型更新等能力，同时支持多个开源计算引擎生态
A、正确
B、错误
正确答案：A

50.以下关于HDFS的特点描述不正确的是（）
A、大数据量吞吐
B、低延识读取
C、流式数据读取
D、大文件存储与访问
正确答案：B

51.关于Hive自定义UDF描述错误的是（）
A、普通的UDF，用于操作单个数据行，且产生一个数据行作为输出
B、永久函数，可以在多个会话中使用，不需要每次创建
C、用户定义表生成函数UDTF，用于接受多个输入数据行，并产生一个输出数据行
D、临时函数，只能在当前会话使用，重启会话后需要重新创建
正确答案：C

53.常用的数据收集工具不包括以下哪个选项？
A、 Loader
B、 Sqoop
C、Kettle
D、 Spark
正确答案：D

54.HDFS创建目录过程中，通过调用FileSystem实例的（）方法查看该目录是否存在
A、 create
B、Mkdirs
C、exists
D、find
正确答案：C

56.当大数据业务人员希望通过like关键字来查询Hive表中的某些数据时，需要添加以下哪个关键字符用于匹配数据：
A、%
B、A
C、$
D、&
正确答案：A

57.Hive是基于Hadoop的数据仓库软件，最大可以查询和管理（）级别的分布式数据
A、B
B、GB
C、PB
D、MB
正确答案：C

58.每个查询会被Hive转化为多个阶段，当有些阶段关联性较大时，可以并行化执行，减少整个任务的执行时间
A、正确
B、错误
正确答案：B

59.本实验对数据处理过程中，进行了数据分层处理。
A、正确
B、错误
正确答案：A

60.ElasticSearch不可以通过SQL来使用（）
A、正确
B、错误
正确答案：B

05

1.GraphBase的图数据都是单向边
A、正确
B、错误
正确答案：A

2.GaussDB200是基于MPP架构的面向海量数据分析的数据仓库
A、正确
B、错误
正确答案：A

3.SQLonAnywhere的意思是GaussDB200的SQL可以运行在任何地方的数据库
A、正确
B、错误
正确答案：B

4.基于Foreign Table的连接可以连接任何同构和异构数据库
A、正确
B、错误
正确答案：B

5.GaussDB200支持索引，为了查询的高效，应对每一个查询字段设置索引
A、正确
B、错误
正确答案：B

6.GaussDB200支持数据的并行导入导出，所以为了充分利用GaussDB200的分布式数据库的性能，每一次的数据导入导出都用并行的方式进行。（）
A、正确
B、错误
正确答案：B

7.逻辑集群可以使用全部物理集群的资源（）
A、正确
B、错误
正确答案：B

8.批处理优先推荐使用Spark或SparkSQL模式，，也可以使用MapReduce或Hive模式。两种批处理模式可以同时使用。
A、正确
B、错误
正确答案：B

9.大数据数据源只是单一的。
A、正确
B、错误
正确答案：B

10.实时流处理计算框架中实时性最好的是StructuredStreaming
A、正确
B、错误
正确答案：A

11.HLog日志保证了用户写入的数据不丢失。
A、正确
B、错误
正确答案：A

13.Kafka可以同时解决在线应用消息和离线应用日志的数据处理问题
A、正确
B、错误
正确答案：A

14.Redis采用Master-Slave架构，由Master节点管理Slave工作
A、正确
B、错误
正确答案：B

15.GaussDB200数据导出操作不支持导出数据到HDFS文件系统。
A、正确
B、错误
正确答案：A

16.Gremlin中查询单个点的信息该用什么命令
A、g.vO.hasLabel("test")
B、g.VOhasLabel("test").values("age")
C、g.Vo.hasLabel("test").valueMap("String.list","age")
D、gV(13464736).valueMap()
正确答案：D

17.在Spark2.X版中，SparksQL适合进行离线数据查询，在某些场景下也可以适用于实时工作流任务
A、正确
B、错误
正确答案：B

19.离线批处理，是指对海量历史数据进处理和分析，生成结果数据，供下一步数据应用使用的过程。
A、正确
B、错误
正确答案：A

20.大数据离线批处理支持SQL类作业和自定义作业
A、正确
B、错误
正确答案：A

21.某大数据业务人员在查询某张表的业务数据时，希望查询出来的数值结果保留两位小数，他应该使用哪个函数来实现
A、Trim
B、 round
C、abs
D、rand
正确答案：B

22.提供易使用的交互式查询语言，如SaL负责执行查询命令，伴随着少量更新和大量扫描分析场景，并将查询结果显示出来的查询叫做交互询。交互式查询提供SQLonHadoop的能力，直接在Hadoop上执行交互查询，HDPFS数据加工流转在一个存储层内，免数据搬迁。
A、正确
B、错误
正确答案：A

23.在HBase中存储海量数据，不支持多版本。
A、正确
B、错误
正确答案：A

24.Hive中的元数据包括表的名字，表的列（字段名、数据类型）、分区及表的用户权限等
A、正确
B、错误
正确答案：A

26.BloomFilter可以被用来快速的判断一条数据在一个大的数据集合中是否存在
A、正确
B、错误
正确答案：A

27.HBase表设计为什么一般不超过两个列？
A、过多的列族不适合读写分离
B、过多的列I0开销大
C、过多的列StoreFile过多，Compaction压力大
D、过多的列会导致memstoreflush时10压力过大
正确答案：B

28.GES能够处理海量数据的原因是（）
A、基于HBase的分布式存储机制
B、图机制特性
C、基于Elasticsearch的素引机制
D、基于Spark的分布式内存计算技术
正确答案：A

12.GraphBase的计算层，不仅提供图数据库核心引擎，还提供模糊检索，全文检索等能力。
A、正确
B、错误
正确答案：B

29.GES的计算层，不仅提供图数据库核心引擎，还提供模糊检索，全文检索等能力。
A、正确
B、错误
正确答案：A

30.实时流处理架构可用于公安监控业务、金融反欺诈业务或者其他实时业务
A、正确
B、错误
正确答案：A

31.实时流处理系统中消费后的数据可以存储到关系型数据库中，便于实时查询
A、正确
B、错误
正确答案：A

32.下面哪几项属于Redis中set类型的命令？
A、sunion
B、 scard
C、zcount
D、lrange
正确答案：A

33.下列哪一个选项不是StructuredStreaming支持的sink输出源？
A、HBase
B、Console
C、Kafka
D、HDFS
正确答案：A

34.Redis中相对于AOF持久化，对RDB持久化描述正确的是（）
A、会丢失最后一次持久化以后的数据
B、内存占用过多，持久化文件尺寸较大
C、占用较多的磁盘I0开支
D、恢复数度相对较慢，写入数据相对较快
正确答案：A

36.MRS的安全模式一般是用于生产环境
A、正确
B、错误
正确答案：A

37.一位大数据工程师使用ElasticSearch进行数据操作，如果他希望获取集群当前的健康状态，那么他可以如何操作？
A、curl-XPOSThttp://ip:httpport/素引名/文档类型/索引1D?pretty-H"Content-Type:Application/ison'-d'0
B、curl-XGEThttp://ip:httpport/_cluster/health?pretty
C、cur1-XGEThttp://ip:httpport/索引名/文档类型/索引lID?pretty
D、curl-XPUThttp://ip:httpport/素引名？ pretty'-H"Content-Type:application/ison-d'("settings':("number_of shards:分片数量，"number_ofreplicas"：副本数量)),
正确答案：B

39.在SparksQL中，（）使用了新的编码器，其编码器的作用是将VM的对象与表结构进行转换，允许操作序列化数据，可以提高内存利用率
A、DataFrame
B、Table
C、DataSet
D、RDD
正确答案：C

40.在网络日志数据分析场景中，日志服务器通过log4将数据传给（），（）会对数据进行简单的处理过滤，然后将数据按照日期存储到（）上。
A、Flume、Flume、HDFS
B、HDFS、Flume、Flume
C、Spark、Sgoop、Flume
D、Hive、Flume、Loader
正确答案：A

41.某大数据业务人员希望确保某份关键数据在Hive中不会因为drop操作导致数据删除。他可以采用内部表的方式来实现，drop操作时只会删除元数据而不会删除表数据
A、正确
B、错误
正确答案：B

44.在Hive中，Driver负责管理HiveQL执行的生命周期，并贯穿Hive任务整个执行期间。
A、正确
B、错误
正确答案：A

45.Hive创建（）时，会将数据移动到数据仓库指向的路径创建（），仅记录数据所在的路径，不对数据的位置做任何改变
A、内部表、外部表
B、内部表、元数据
C、原元数据、外部表
D、外部表、托管表
正确答案：A

46.ElasticSearch可以通过什么命令发起Http请求来对数据进行查询操作？
A、netstat
B、 Curl
C、wget
D、get
正确答案：B

47.HBase使用get方法读取数据时，下列哪个选项是需要的？
A、Delete delete=new Delete (rowkey）
B、scan.setCaching（1000）
C、bytell rowkey=Bytes.toBytes("012005000201")
D、 List<Put> puts = new Arraylist<Put>()
正确答案：C

48.下面这段代码的作用是什么？

try {
    Rsp=restc1ientlest.performRequest("HEAD","1"+indexparams);
    if(Httpstatus.Sc_OK == rsp.getStatusLine().getStatusCode(){ 
        LOG.info("check index successful， index is exist:" + index)
        return true;
    }
    if(Httpstatus. SC_NOT_FOUND == Rsp.getStatusLine.getStatusCode(){
        LOG.info("index is not exist:"+index);
        returnfalse;
    }
}

A、判断素引分片是否存在
B、判断索引类型
C、判断素引是否可用
D、判断索引是否存在
正确答案：D

49.Flume的基础架构不包含以下哪部分？
A、 Channel
B、Broker
C、Source
D、 Sink
正确答案：B

50.Flink快照机制的核心是barriers不包含以下哪个特点？
A、将前后周期快照数据分隔
B、携带所属快照周期的ID
C、严格的按照线性流动
D、会阻断数据流，重量级元组
正确答案：D

51.关于GaussDB200的两种跨集群方式EC（ExtensionConnector）和FT（ForeignTab1e），以下说法正确的是（）？
A、在连接之前都要先做好集群互信操作
B、EC配置简单，理论上可以连接任何支持ODBC的同构/异构数据库
C、二者都可以充分利用GaussDB200的分布式计算能力
D、FT配置复杂，只能支持GaussDB200同构数据库
正确答案：A

52.关于GaussDB200的数据并行导出，下列说法正确的是（？
A、Remote模式效率受网终带宽影响
B、Local模式效率受网络带宽影响
C、Remote模式是指将数据导出到集群本地服务器上
D、Loca模式是导出文件到本地电脑
正确答案：A

53.GaussDB200的SQL自诊断在Monitor模式下，可识别下列哪个lssuePattern？
A、HashJoin中大表做内装
B、多列统计信息未收集
C、大表等值关联NestLoop
D、数据倾斜
正确答案：B

54.以下哪项是SparkQ2x程序统一入口？
A、 Streaming Context
B、SalContext
C、Hive Context
D、 SparkSession
正确答案：D

55.以下哪项不属于批量数据采集工具？（）
A、 Map Reduce
B、Flume
C、Scoop
D、其他ETL工具
正确答案：A

57.创建存储过程，

CREATE OR REPLACE PROCEDURE proc_while_loop(maxvalin integer) 
    AS DECLAREl int:=maxval/2;
BEGINWHiLEi < maxval LOOP raise info % i;
i:=i+1;
ENDLOOP:END:

下面循环语句在Messages内的输出是()CALL proc while loop (9);
A、5678
B、456789
C、56789
D、45678
正确答案：D

58.对于GaussDB200的数据存储流程，下列说法正确的是（）？
A、通过GaussDB200的数据分布规则数据会自动分布，那么对表的设计可以比较随意
B、导入的数据直接从客户端进入磁盘中
C、数据的分布一般默认按照分布键的HASH值分布
D、数据的分布一般默认按照数据大小均匀分布
正确答案：C

59.有一张表name，其中一个字段名为chinese_name，类型为char（4），另一个字段名为english_name，类型为varchal
（5）。那么执行如下语句"insert into name values('gaosi'，'GaussDB)"会发生什么？（）
A、存在记录（gaos，GaussDB）
B、存在记录gaos，Gauss）
C、数据无法插入。
D、存在记录（gaosi，GaussDB）
正确答案：C

60.TOPN操作最适合采用哪种Redis数据结构？（
A、Set
B、Hash
C、List
D、Sorted set
正确答案：D

06

1.以下哪个选项对Redis数据读写流程描述是正确的？
A、ServerA节点返回集群拓扑——客户端选择集群任意一个serverA节点连接客户端计算Key归属的槽位以及对应Server B节点并连接-Server e节点返回业务操作结果
B、客户端选择集群任意一个ServerA节点连接-Servera节点返回集群拓扑客户端计算Key归属的槽位以及对应serverB节点并连接—ServerB节点返回业务操作结果
C、ServerA节点返回集群拓扑一喜户端计算Key归属的槽位以及对应ServerB节点并连接户端选择集群任意一个ServerA节点连接-eerB节点返回业务操作结果
D.客户端选择集群任意一个Servera节点连接客户端计算Key归属的槽位以及对应ServerB节点并连接-ServerA节点返回集群拓扑-ServerB节点返回业务操作结果
正确答案：B

2.GaussDB200的高可用主要体现在哪些方面
A、数据融合
B、分析融合
C、计算融合
D、以上全都正确
正确答案：D

3.下列哪个选项可以用来判断HBase表是否存在？（
A、admin.table Exists(tableName)
B、admin.table Exists (Table Namevalue Of (table Name)
C、admin. get Table (tableName)
D、tables.containskey (table Name)
正确答案：B

4.Flink不包含以下哪些数据处理场景？（）
A、高可靠性
B、图形分析
C、毫秒级低时延
D、高并发
正确答案：B

5.下列对图数据库描述正确的是？
A、以“图”数据结构存储和查询数据的教据库
B、存储图片的数据库
C.与关系型数据库类似的数据库
D、数据仓库的一种
正确答案：A

6.以下关于ElasticSearch介绍错误的是？（
A、Document文档，被素引的基本单位
B、ESMaster主节点
C、Index索引与关系型数据库中的索引概念一样
D、EsNode:Elasticsearch节点一个节点就是一个Elasticsearch实例
正确答案：C

7.以下关于常见数据库描述正确的是？
A、HBase基于ZookeeperHadoop，适合非结构化数据存储，是高可靠性高性能，面向行，可伸缩的分布式存储系
B、Oracle:关系型数据库行式存储，支持SQL，中量级数据分析存储不可分布式开源软件。
C、Redis:开源key-value数据库，读写性能极高，数据类型丰富，可以与Storm结合进行实时查询分析
D、Mysql关系型数据库，列式存储支持SQL轻量级数据分析存储仅有商业版本。
正确答案：C

8.对GaussDB200描述不正确的是？（）
A、并行架构
B、易运维，安全可靠
C、行列不能混存
D、节点多，易扩展
正确答案：C

9.Kafka的核心架构不包合？（）
A、Split
B、 Producer
C、Consumer
D、Broker
正确答案：A

10.Redis中适合存储对象的数据类型是？
A、 String
B、 List
C、Hash
D、Set
正确答案：C

11.哪个不是StructuredStreaming中OutPut可以定义的存储方式？
A、Update Mode
B、JDBC Mode
C、Complete Mode
D、 Append Mode
正确答案：B

12.哪个选项不是实时检索解决方案的典型业务特点？（）
A、查询条件简单
B、查询速度快
C、统计类查询
D、高并发
正确答案：C

13.Loader特点不包合？
A、图形化
B、实时性
C、高性能
D、安全
正确答案：B

14.对于HBaseKeyValue存储模型描述不正确的是？
A、同一个key值只能关联个value
B、拥有时间类型等关键信息
C、Keyvalue具有特定的格式
D、时间戳来区分多个记录版本
正确答案：A

15.用户Region和RegionServer之间的路由信息，保存在哪个模块中？
A、Mastel
B、HDFS
C、Meta表
D、Zookeeper
正确答案：C

16.Spark的核心概念不包括？
A、RDD
B、Hoq
C、宽窄依赖
D、 Shuffle
正确答案：B

17.以下哪个不是大数据的数据计算引擎？
A、Spark
B、MapReduce
C、Flume
D、 Flink
正确答案：C

18.哪个是实时检索解决方案的数据源
A、流数据
B、以上都是
C、文件数据
D、图数据
正确答案：B

19.以下哪种Hive的方法可以用来对数据求和？
A、trim
B、data
C、avg
D、sum
正确答案：D

20.对于ElasticSearch描述不正确的是？
A、对Lucene进行了扩展
B、不支持结构化数据存储
C、能够水平扩展
D、基于Lucene的全文检素服务
正确答案：B

21.哪个产品适应于OLAP场景？
A、PostgressQL
B、 SQLServer o
C、MysQL
D、GaussDB 200
正确答案：D

22.下对GaussDB200双AZ集群描述不正确是？
A、灾备集群不同步数据时，可以提供读写服务
B、主集群不可用时，灾备集群提供正常服务
C、主集群提供正常服务，灾备集群只同步数据
D、周期性数据同步
正确答案：A

23.以下属于Hive的架构组件的是？
A、HLog
B、 Driver
C、Master
D、 Name Node
正确答案：B

24.GES创建索引必须在创建schema之后，创建点边之前，否则数据查询不到
A、正确
B、错误
正确答案：B

25.某电商公司的一位数据分析师在使用Hive进行数据分析时，不慎删除了一个外部表，那么元数据和业务数据将一起都被删除，并且数据不可恢复
A、正确
B、错误
正确答案：B

26.ElasticSearch缓存RequestCache属于Node级别的缓存。
A、正确
B、错误
正确答案：B

27.下列哪一项是HBase不适合的应用场景？
A、海量数据（TB，PB）应用场景
B、半结构化数据应用场景
C、要求具有完全ACID特性的应用场景。
D、高吞吐率应用场景
正确答案：C

28.HBase中如果只需要保存最新版本的数据，可以设置最大版本数为1。
A、正确
B、错误
正确答案：A

29.对ElasticSearch描述正确的是（）
A、客户端必须把索引请求发给shard
B、客户端必须把露引请求发给EsNode
C、客户端必须把素引请求发给EsMaste
D、客户端必须把索引请求发给指定的EsNode
正确答案：C

30.HBase元数据MetaRegion路由信息保存的位置是下列哪一项？
A、Haster
B、 Zookeeper
C、Root表
D、Meta表
正确答案：C

31.下列代码的作用是？String graphName ='graphbase;
Api.createGraph（graphName）
A、删除图
B、获得图
C、修改图
D、创建图
正确答案：D

33.Flink中的DataStream数据流转不包含以下哪项？
A、Data source
B、Transformations
C、Data sink
D、Actions
正确答案：D

34关于Kafka的Topic，以下哪一项描述是错误的？
A、Kafka集群中Topic可以设置多个。
B、设置多副本可以增强Kafka服务的容交能力。
C、Topic的Partition数量可以在创建时配置。
D、在创建Kafka的Topic时，必须设置Partition个数
正确答案：D

35.MRS的SFlink不支持Kerberos等进行认证，但支持SSL加密传输
A、正确
B、错误
正确答案：B

36.以下哪个选项不能做为Kafka的Consumer？
A、Hadoop
B、 Real-time Monitoring
C、Front End
D、Data Warehouse
正确答案：C

37.以下关于选用Kafka等消息系统的原因描述错误的是（）。
A、解耦：消息系统在处理过程中插入一个隐含、基于数据的接口层
B、同步通信：消息队列允许消息加入队列，等需要时再处理
C、扩展性：消息队列解耦处理过程，容易扩展处理过程
D、冗余：消息队列持久化，防止数据丢失
正确答案：D

38.Redis每个数据库对外都是以一个从0开始的递增数字命名，支持自定义。
A、正确
B、错误
正确答案：B

39.Flink不包合以下哪些数据处理场景？
A、毫秒级低时延
B、高可靠性
C、高并发
D、图形分析
正确答案：D

40.Kafka中的Broker在收到新消息后会立即存入磁盘
A、正确
B、错误
正确答案：B

41.Kafka集群在运行期间，直接依赖于下面那些组件？
A、Spark
B、Zookeeper
C、HBase
D、HDFS
正确答案：B

42.下面这段代码的作用是什么

try{
    rsp= restClientTest.performRequest("HEAD","/" + index,params);
    if(HttpStatus.SC_OK == rsp.getStatusLine().getStatusCodo() ){
        LOG.info("Check index successful，index is exist："+index);
        return true;
    }
     if(HttpStatus.SC_NOT_FOUND == rsp.getStatusLine().getStatusCode() ){
         LOG.info("index is not exist："+index）;
         return false;
    }
}

A、判断索引分片是否存在
B、判断素引是否可用
C、判断素引是否存在
D、判断索引类型
正确答案：C

43.某工程师正在开发EasticSearch应用，请问下列代码可以帮助他实现什么功能？

private static void delete(RestClie restClient) throws Exception{
    Response rsp= nul1;
    try{
        rsp = restClient.performRequet("DELETE","/",index+"?&pretty=true");
        Assert.assertEquals(rsp. getStatusLine().getstatusCode().HttpStatus.SC_OK);
        LOG.info("delete index,response entity is : "+ EntityUtils.toString(rsp.getEntity()));
    }catch (Exception e) {
        Assert.fail();
    }
}

4、删除素引
B、创建素引
C、维护索引
D、更新素引
正确答案：A

44.存储过程的调用有几种方式
A、3
B、1
C、4
D、2
正确答案：B

45.GaussDB200有两张相同字段结构和数据量的表table1和table.2，table1是行存表table2是列存表，执行SQL语句"select name from table_name where num=-1"，table1查询了（）数据量，table2查询了（）数据量（一个单元格为一个数据量）

A、9.6
B、3.9
C、3.6
D、9.9
正确答案：C

46.创建一个存储过程

proc_add CREATE OR REPLACE PROCEDURE 
proc_add(paraml in INTEGER param2 out INTEGER param3 in INTEGER)
  AS BEGINParam2:= paraml + param3;
  END;
-- 创建一个存储过程
proc testCREATE OR REPLACE PROCEDURE 
proc_test (result out INTEGER)
  as DECLARELnput1 INTEGER:=1;
  input2 INTEGER:=2;
  statement VARCHAR2(200);
  param2 IINTEGER;
  BEGIN
-- 声明调用语句
Statement：='callproc_add(:col._1,col.2,col_3);
--  执行语句
EXECUTE IMMEDIATE statementUSING IN input1,
  OUT param2IN input2;
  result:=param2;
  END;

执行语句call proc test （10），结果是（）。
A、3
B、无返回值
C、4
D、2
正确答案：A

47.随着数据时代的到来，数据量大小的指数递增，，那么OLTP就会慢慢被OLAP所替代
A、正确
B、错误
正确答案：B

48.下列哪个不是Explain的关键字（）
A、Tablescan
B、HashJoin
C、Filter
D、Segscan
正确答案：C

49.消息系统Kafka如何保证高吞吐能力？
A、多订阅者机制
B、Partition机制
C、持久性机制
D、元余备份机制
正确答案：B

50.Redis中数据排序的性能优化不包含以下哪个选项？
A、减少待排序键中元素的数量
B、增加集群中Master节点
C、如果要排序的数据数量很大，尽可能使用store参数将结果缓存
D、使用limit参数只获取需要的数据
正确答案：D

51.StructuredStreaming不支持以下哪种计算时间？
A、处理时间
B、事件时间
C、结束时间
D、注入时间
正确答案:C

52.考虑以下场景，HBase有列族CF1.列C1.C2.当读取HBase表时。只要求近回C1的列值，使用下列哪个选项可以实现该功能？
A、ColumFilter
B、ValueFilte
C、QualifierFilte
D、 RowFilter
正确答案：C

53.当ElasticSearch集群有节点加入或退出时，集群数据会发生什么动作
A、数据重载
B、数据重分布
C、数据更新
D、数据重建
正确答案：B

54.在GraphBase上，创建一个新的图，必须使用的参数是？
A、vertex
B、graphName
C、label
D、 edge
正确答案：B

55.以下哪项不属于Apache顶级项目？
A、 Flink
B、 Storm
C、 Eclipse
D、 Spark
正确答案：C

56.ElasticSearch数据写入阶段有很多调优方式，下列错误的是哪一项？
A、写入前副本数设置为0
B、禁用wildcard
C、尽量使用自动生成的id
D、写入过程中：采取bulk批量写入
正确答案：A

57.Flink中无界流的数据都可以被排序，所以并不需要有序读取。
A、正确
B、错误
正确答案：B

58.Kafka中数据从Producer到Broker和Broker到Consumer分别是哪种传递方式？
A、push、push
B、push、pull
C、 pull、pull
D、 pull、push
正确答案：B

59.Redis中哪个命令是查着键的剩余生存时间？
A、ttl
B、expireat
C、 persist
D、expire
正确答案：A

60.Flink的运行必须依赖Hadoop组件。
A、正确
B、错误
正确答案：

07

1.Flume的核心是把数据从数据源收集过来，再将收集到的数据送到指定的目的地
A、正确
B、错误
正确答案：A

2.实时流处理系统中，要求数据权限和资源隔离，，多种流处理应用之间要进行资源控制和隔离，防止发生资源争抢
A、正确
B、错误
正确答案：A

3.Flume的Source可以不用和channel关联，直接连接到sink
A、正确
B、错误
正确答案：B

4.如果想把Redis的Key中存储的数字值减1，该使用下列哪一个命令？
A、 decr
B、incr
C、C.incrby
D、 decrby
正确答案：A

6.在信用卡反欺诈场景中，可以通过实时分析的规则拦截欺诈行为。
A、正确
B、错误
正确答案：A

7.下列哪一个命令可以清空Redis实例下所有数据库的数据？
A、dropdb
B、flushdb
C、dropall
D、 flushall
正确答案：D

8.Flume的应用中，如果要保证sink的负载均衡，需要使用以下哪一个组件？
A、Static Interceptor
B、Default Sink Processor
C、Replicating Channel Selector
D、 Failover Sink Processor
正确答案：C

9.Flink状态快照是同步捕获的，会影响正在进行的计算任务
A、正确
B、错误
正确答案：A

10.关于Flink的角色，下列哪一项说法是错误的？
A、TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。
B、Cient是Flink程序提交的客户端，对用户提交的Flink程序进行预处理，并提交到Flink集群中处理
C、JobManager扮演着集群中的管理者Master的角色，它是整个集群的协调者
D、TaskManager是实际负责执行计算的Worker
正确答案：A

11.下列哪段代码是用于判断ElasticSearch索引是否存在？
A、public boolean isExistslndex (String indexName){IndicesExists Response response = getAdminClient().prepareExists(indexName).get();}
B、public boolean isExistslndex (String indexName){IndicesExists Response response = getAdminClient().prepareExists(indexName); return response.isExists ? true: false;}
C、public boolean isExistslndex (String indexName){IndicesExists Response response = getAdminClient().get(); return response.isExists ? true: false;}
D、public boolean isExistslndex (String indexName){IndicesExists Response response = getAdminClient().prepareExists(indexName).get(); return response.isExists ? true: false;}
正确答案：B

12.某公司计划上线新系统，数据库工程师使用Hive数据仓库进行数据分析，现在界面提示："ojdbc:hive2://192.168.0.186:218/"信息，现已完成数据库的创建工作，那么他将如何继续开始数据库的使用
A、use database
B、start database
C、restart database
D、continue database
正确答案：A

13.某电商公司数据库高级工程师进行大数据分析，现在界面提示："ojdbc:hive2://192.168.0.186:2181/>"信息，那么他最有
可能在进行什么场录的数据分析工作？
A、实时检素场景
B、离线批处理场景
C、图搜素场景
D、实时流开发场景
正确答案：B

15.Hive调优中，当连接一个较小和较大表的时候，把（）的表直接放到内存中去，然后再对（）的表进行map操作。
A、小，小
B、小，大
C、大，小
D、大，大
正确答案：B

16.GES的Edge都是单向边，如果需要双向边，则通过两条相反方向的单向边组成。
A、正确
B、错误
正确答案：A

17.下列关于GaussDB200的Explain命令描述正确的是？（）
A、Explain命令主要显示SQL的执行计划，对SQL调优用处不大
B、Explain主要关注语句的预计执行开销。
C、通过设置GUC参数explainperfmode，可以显示不同格式的执行计划。
D、Explain可以完成对SQL的优化，其余优化不关键
正确答案：B

18.以下哪些选项不属于大数据时代到来的必要条件？
A、存储设备容量提升
B、CPU计算性能提升
C、超级计算机的出现
D、网络带宽提升
正确答案：C

19.离线批处理工具不包含以下哪项？
A、 Spark
B、MapReduce
C、Storm
D、SQL
正确答案：C

21.网站在运营过程中，会有用户访问并产生行为数据，要想对这些数据进行处理挖掘，如果是离线批处理下的方案配置，描述不正确的是
A、数据导入导出，Loader
B、数据采集传输：Flume
C、数据计算，Storm
D、数据存储HDFS或MySql
正确答案：C

22.关于Spark中SparkSQL描述不准确的是？
A、SQL语句通过SparksQL模块解析为DAG，交给Sparkcore执行。
B、SparksSQL使用场景包括毫秒级实时查询
C、通过Sparksession提交SQL语句。任务像普通Spark应用一样提交到集群中分布式运行
D、SparksQL是Spark用来处理结构化数据的一个模块，可以在Spark应用中直接使用SQL语句对数据进行操作。
正确答案：B

23.以下关于HDFS适合做什么描述不正确的是？
A、流式数据读取
B、大文件存储与访问
C、大数据量吞吐
D、低延识读取
正确答案：D

24.在GaussDB200的存储过程中，语句number=0的意思是（？
A、判断number的值是否为0
B、声明一个变量number.并初始化值为0
C、修改变量number的值为0
D、比较number和的大小
正确答案：B

25.关于表连接算子的说法错误的是（？
A、聚合操作如groupby会触发Nergejoin
B、表连接算子主要有NestloopMergejoin.Minorjoin.HashJoin
C、算子的选择是SQL根据逻辑=行选择的，与人为无关
D、默认情况下，执行效率来说Hashjoin最高
正确答案：D

26.在GaussDB200中常用的逻辑操作符有AND、OR和NOT，它们之间的运算优先级顺序为（）
A、AND,OR>NOT
B、NOT>AND>OR
C、OR>AND>NOT
D、NOT >OR>AND
正确答案：B

27.下列关于GaussDB200的局部聚簇技术说法正确的是（？
A、局部聚簇技术可以应用在GaUssDB200的所有表中
B、局部聚簇在某些场景下可以提交检素效塞，所以在创建表时根据业务场曼应创建零个PCK
C、PCK通过min/max稀疏素引实现事实表快速过扫描
D、PCK对应的列尽量不要为空值
正确答案：C

28.下列关于GaussDB200的说法正确的是（？
A、RETURN用于返回存储过程调用结果
B、RETURNNEXT表示返回下一个。
C、RETURNQUERY用于近回集合。
D、存储过程需要返回值时使用RETURN关键字
正确答案：D

29.下面这条GaussDB200的SQL语句"select name,count(1) from student group by name"可能涉及的算子有哪些：
A、 Filter
B、GroupAggregate
C、 Streaming
D、HashAggregate
正确答案：B

32.GaussDB200的EXECUtE IMEDIATE语法和OPENFOR语法都可以实现动态语句的执行，那么二者的异同是（）
A、EXECUTE IMMEDIATE没有返回值，OPENFOR有返回值。
B、当需要将查询的结果保存在一个数据集时，可使用OPENFOR实现动态查询。
C、EXECUTE IMMEDIATE通过动态执行SELECT语句，OPENFOR结合了游标的使用
D、EXECUTE INMEDIATE可以调用存储过程，OPENFOR则不行。
正确答案：B

33.第三次信息化浪潮标志不包含以下哪项？
A、互联网
B、云计算
C、物联网
D、大数据
正确答案：A

34.以下哪些选项属于实时检索的特点？
A、处理时间要求不高
B、全文检素功能
C、高并发
D、查询响应要求较高
正确答案：D

35.通过HDFS的Shell命令来操作HDFS，表示删除文件的命令是？
A、hdfs dfs-rm
B、hdfs dfs-put
C、hdfs dfs-mkdir
D、hdfs dfs-cat Cpaths
正确答案：A

37.HDFS数据写入流程描述错误的是？
A、业务应用调用HDFSClient提供的API请求写入文件
B、业务调用close,flush后HDFSClient联系NameNode，确认数据写完成，DataNode持久化元数据。
C、HDFSClient收到业务数据后，从NameNode获取到数据块编号.位置信息后，联系DataNode，并将需要写入数据的DataN
ode建立起流水线。完成后，客户端再通过自有协议写入数据到DataNodel.再由DataNode1复制到DataNodeQ2DataN
ode3。
D、HDFSClient联系NameNode,NameNode在元数据中创建文件节点。
正确答案：B

38.Elasticfearch是怎么实现Master选举的？
A、内部自行选举
B、借助Zookeeper选举
C、随机生成
D、自行指定
正确答案：B

40.现在有一亿条数据要插入HBase，使用下列哪个方式最好？
A、put方法
B、bulkload方法
C、shell端put令
D、insert方法
正确答案：B

41.以下哪项属于Flume的基本数据单位？
A、Subject
B、Topic
C、Object
D、Event
正确答案D
：
42.StructuredStreaming中持续地查询最新计算结果至写出。这个过程叫做什么？
A、match query
B、query string
C、 continous query
D、match phrase
正确答案：C

43.Flume中的JDBCChanne1内置数据库是哪个？
A、Derby
B、Oracle
C、 sqlserver
D、 MySal
正确答案A

44.集合运算算子指的是
A、 Setop
B、ArrayOP
C、Hashop
D、 Listop
正确答案：A

45.数据处理方式，可分为实时处理和离线处理。
A、正确
B、错误
正确答案：A

46.GaussDB200支持几种数据并行导入策略？（
A、3
B、1
C、2
D、 4
正确答案：A

48.下列创建propertykey的代码正确吗？

Propertykey propertykey =new Propertykey();
Propertykey.setDataType(DataType.String);
Propertykey.setName("name");
Api.addPropertykey(propertykey);

A、正确
B、错误
正确答案A

49.考虑以下场景，当公安人员需要根据某犯罪人员发现其犯罪同伙时，最适合使用下列哪个工具？
A、GraphBase
B、HBase
C、HDFS
D、 ElasticSearch
正确答案：A

52.Kafka消息默认保存时间为多少天？
A、14天
B、30天
C、1天
D、7天
正确答案：D

53.Redis中List列表是什么数据结构实现的？
A、双向链表
B、平衡二又树
C、红黑树
D、循环链表
正确答案：A

54.下面这条GaussDB200语句"calldbms_job.broken(1,true);的意思是（）
A、停止任务TD为1的Job
B、启动任务ID为1的Job
C、延时任务ID为1的Job.
D、删除任务ID为1的Job.
正确答案：A

55.对于GaussDB200的数据并行导入策略Normal，下列说法错误的是（）
A、通过GDS服务的方式实现数据并行导入
B、导入的效率和GDS服务器有关，GDS服务器越多，导入效率越快
C、数据导入时，支持单行数据大小小于1GB
D、能够将数据库的数据.表结构都导入
正确答案：C

56.下列关于GaussDB200的TOAST机制说法正确的是（）？
A、存储超过2KB的字段时，会触发TOAST机制
B、支持变长（var1ena）表现形式的数据类型
C、存储超过1/2KB的字段时，会触发TOAST机制
D、存储超过1KB的字段时，会触发TOAST机制
正确答案：B

08

单选题（共11题）

2.StructuredStreaming中以下哪项计划的执行顺序是正确的？
A、物理计划-逻辑计划-优化的逻辑计划
B、逻辑计划-优化的逻辑计划-物理计划
C、逻辑计划-物理计划优化的逻辑计划
D、优化的逻辑计划一逻辑计划-物理计划
正确答案：B

4.Flink哪种机制可以保证task运行失败时，其状态能够恢复？
A、窗口
B、事件时间
C、检查点
D、有状态处理
正确答案：C

9.下列哪一项不是StructuredStreaming支持的Source数据源。
A、Kafka
B、Socekt
C、 Hive
D、Hdfs
正确答案：C

10.如果使用Redis统计topN元素，可以使用哪些数据类型？
A、Set
B、List
C、Stored set
D、Hash
正确答案：C

11.Redis命令区分大小写。
A、True
B、False
正确答案：B

多选题（共16题）

2.Flink能够通过哪几种方式提供容错机制
A、窗口
B、事件时间
C、流重放
D、状态快照
正确答案：ABCD

3.以下关于Redis中set数据类型srandmemberkey[count]命令的描述哪些是正确的？
A、如果count为负数，那么命令返回一个数组，数组中的元素可能会重复出现多次，而数组的长度为count的绝对值
B、如果count为正数，且小于集合基数，那么命令返回—一个包含count个元素的数组，数组中的元素各不相同
C、如果count大于等于集合基数，那么返回整个集合。
D、如果count为负数，那么命令返回一个数组，数组中的元素各不相同，且数组的长度小于count的绝对值
正确答案：ABC

4.以下哪些选项是Kafka的特点？
A、支持消息随机读取
B、高吞吐
C、分布式
D、消息持久化
正确答案BCD

5.以下哪些选项是ElasticSearch主节点EsMaster功能？
A、参与文档数据变更
B、参与文档数据搜索
C、参与新建索引
D、参与删除素引
正确答案：CD

6.ElasticSearch支持的gateway类型有？
A、Amazon S3
B、本地文件系统
C、HDFS
D、Amazon S5
正确答案：ABCD

7.GraphBase可以提供下列哪些服务？
A、查询
B、存储
C、遍历
D、分析
正确答案ABCD

8.在金融领域的大数据批量离线处理平台中，以下描述准确的是？
A、金融领域的外部数据来源可以是征信信息.杜交网络和电商等。
B、在数据集成模块，可以分为数据采集数据操控和数据加载3个阶段。
C、金融领域的内部数据来源均是结构化数据，包括信贷数据，信用卡数据和收单数据等
D、金融领域的数据应用层面均是面向金融机构内部的，如监管报表系统，精准营销.BI应用等，完全不对外或对其他下属机构开放。
正确答案：AB

9.哪些是离线批处理的特点？
A、处理数据量巨大，PB级
B、处理时间要求高
C、容易产生资源抢占
D、多个作业调度复杂
正确答案ACD

10.以下对HDFS中提供文件读写的类描述正确的是？
A、FSDataOutputstream是与DataNode交互的接口类
B、FSDataOutputstream是HOFSAPI中提供读取文件的类，通过FileSystem的close方法获取读取数据流
C、FSDataOutputstream通过FileSystem的create和append方法获取写入数据流。
D、FSDataOutputstream是HDFSAPI中提供文件写入文件的类
正确答案：ACD

11.大数据场景化解决方案包含以下哪些选项？
A、离线检索
B、实时检索
C、离线批处理
D、实时流处理
正确答案：BCD

13.ElasticSearch具有什么特点？
A、支持集群拓展
B、支持结构化数据检素
C、支持非结构化数据检素
D、支持事务机制
正确答案：ABCD

14.网站个性化推荐的背后，可以使用哪些类型的数据实现
A、半结构化
B、结构化
C、非结构化
D、无结构化
正确答案ABC

15.关于GaussDB200.下列说法正确的是（？
A、支持并行架构，行列混存。
B、部署的服务器都必须是华为定制的。
C、支持多节点，但扩展性差。
D、支持master/slave架构，可靠性强
正确答案：AD

填空题（共22题）

1.Transformation算子的返回值是（）
正确答案：Sink

2.HBase中Scan查询结果的多行数据保存在（）对象中，每行数据以Result对象形式存储
正确答案ResultScanner

3.Flume的Channel有多种类型，其中（）在机器岩机时可能丢失数据
正确答案：MemoryChannel

4.如果需要由数据生产者决定数据发送给目标Bolt的某一个确定的Task，应选择（）发布策略
正确答案：直接分组

5.Kafka由（）及Topic构成
正确答案：Partition

6.数据湖构建一站式AI开发平台ModelArts，实现大数据与（）（请填写英文缩写）融合分析
正确答案：AI

7.DAYU基于数据湖实现图数据库与图分析算法融合，支撑丰富多样的（）（请填写中文）应用。
正确答案：图分析

8.HBase建表时预先设置多个Region，数据会按照（）对应Region分区情况，在集群内做数据的负载均衡
正确答案：rowkey

9.Spark相较于MapReduce将中间数据放在（）（请填写中文）中，因此选代效率更高
正确答案：内存

10.Hive是基于（）（请填写英文）的数据仓库软件，可以查询和管理PB级别的分布式数据
正确答案：Hadoop

11.Hive自定义函数中的（）（请填写英文缩写）用于接收单个数据行，并产生多个数据行作为输出。
正确答案：UDTE

12.在ElasticSearch中，通过Key寻找Value，即从关键点出发，然后再通过关键点找到信息中满足搜索条件的特定信息。这描述的是（）（请填写中文）索引机制。
正确答案：正排

13.（）（请填写英文）是Flume数据传输的基本单元
正确答案：event

14.（）（请填写英文）命令可以清空当前数据库的数据
正确答案：flushall

15.Loader通过组件（）来实现认证以及作业权限管理。
正确答案：kerberos
16.Spark通过Stage进行任务划分，而Stage的划分主要依赖（）机制。
正确答案：shuffler

17.HBase不需要完全拥有传统关系型数据库所具备的（）特性。
正确答案：ACID

18.StructuredStreaming支持处理时间和事件时间，同时支持（）机制处理带后数据。
正确答案：watermark

19.在Spark中.reduce算子属（）算子。
正确答案：DataSet

20.JavaAPI操作ElasticSearch有Restclient和（）等多种方式
正确答案：RestServer

21.GES中用（）表示边的类型，用于表示现实世界中的关系类型
正确答案：Edgelabel

22.为了使得Kafka的吞吐率可以线性提高，物理上把Topic分成一个或多个（）
正确答案：Partition

简答题（共11题）
1HDFS数据读取流程包括下面几步，请选择正确的顺序拖题
正确答案：
1———客户端调用Filesystem实例的open方法，获得这个文件对应的输入流
2———通过RPC远程调用NameNode获得、NameNode中此文件对应的数据块的保存位置
3———获得此输入流之后，客户端调用read方法读取数据。输入流选择最近的DataNode建立连接并读取数据
4———如果已达到数据块末端。那么关闭与这个DataNode的连接，然后重新查找下一个数据块。直到数据全部读
完。
5———-客户端调用close关闭输入流

2.下列是ElasticSearch批量索引流程，请选择正确的顺序。拖题
正确答案：
1——-一客户端发送批量索引请求至任意节点后，节点将转发请求至对应主分片节点
2———主分片节点按序操作，完成个操作后再发送给其余复制节点执行
3———复制节点操作完成报告给主分片节点
4———主分片节点报告给请求节点并返回至客户端

GaussDB200开启数据压缩时有__、__、__三种级别。
正确答案：LOW MIDDLE HIGH

4.create 'cx_table_stu03','cf3',SPLITS => [ '10000','20000','30000']在HBase中执行上述命令，所创建的cx_table_stu03表格具有（）（请填写阿拉伯数字）个分区
正确答案：4

5.Spark运行前需要读取任务参数，包含配置文件、动态参数、代码配置等，，请连接将他们的优先级进行匹配
正确答案：
低———-动态参数高————配置文件中————-代码配置

6.Kafka创建Topic时如何将分区放置到不同的Broker中，请选择正确的顺序。
正确答案：
副本因子不能大于Broker的个数————第一步
第一个分区的第一个副本放置位置是随机从brokerList选择的——-第二步
其他分区的第个副本放置位置相对于第0个分区依次往后移————-第三步
剩余的副本相对于第个副本放置位置其实是由nextReplicaShift决定的，而这个数也是随机产生的—————第四步

7.Transformation算子的返回值是__（填空）
正确答案：Sink

8.HBase中Scan查询结果的多行数据保存在__对象中，每行数据以Result对象形式存储。（填空）
正确答案：ResultScanner

9.Flume的Channel有多种类型，其中__在机器岩机时可能丢失数据。（填空）
正确答案：Memory Channel

09 多选题

1关于表扫描算子的说法正确的是
A、对于点查或者范围扫描等过滤本量数据的查询，如果使用Seqscan全表扫描会比较快
B、表的数目比较少的时候，使用Seqscan效率更高。
C、SOL的执行计划第一步就是从表扫描算子开始的
D、Seqscan是指顺序扫描表的所有信息
正确答案：ABC

2.下列哪些情况下SOL自诊断可以识别，并上报告警信息？
A、数据值斜。
B、SQL语句不下推
C、大表Broadcast.
D、HashJoin中大表做内表。
正确答案ABCD

3.实时场景的典型特点是？
A、数据量大
B、数据格式多
C、时延要求高
D、交互式查询
正确答案BCD

4.所谓大数据技术融合主要指哪些方面
A、计算融合
B、数据融合
C、批-流融合
D、算力融合
正确答案ABCD

5.关于Loader特点描述正确的选项是（）。
A、高可靠，LoaderServer采用主备双机作业通过MapReduce执行，支持失败重试，作业失败后，不会残留数据
B、高性能，利用MapReduce:并行处理数据
C、图形化，提供UI图形化配置，监控界面，操作简便
D、安全认证，Kerberos认证作业权限管理
正确答案：ABCD

6.某大数据运维人员需要将部分数据导入Hive数据表中，以下哪些做法是可取的？
A、回将数据导入到HDFS文件系统中，通过loaddata命令导入到Hive表中。
B、将数据导入到FIP服务器中，通过创建外表的方式导入到HIV表中。
C、将数据导入到集群服务器上，通过loaddatalocali命令导入到Hive表中
D、将数据导入到本地电脑中，然后使用loaddatalocali命令导入到Hive表中
正确答案：AB

7.某政府企业的数据库工程师使用Loader进行数据迁移，那么他可以将以下哪些数据源迁移至Hadoop
A、自定义数漏源
B、MySQL数据库
C、Oracle数据车
D、SFTP Server
正确答案：ABCD

9.某大数据业务人员因误操作，导致某条Hive的lnsert语句执行了多次，使得数据出现了重复的现象，为了避免下次再次出现这种问题。以下哪些操作是可取的？
A、添动加Hive表的唯一索引，保正数据不重复。
B、改造SQL语句，在插入前添动加清空操作如truncate
C、改造SQL语句，添加关键字Overwrite使得数据以夏盖的方式写入
D、添动加权限，使得业务人员只执行单次插入
正确答案：ABCD

11.HBase的可视化Web界面可以查询到（）
A、表的信息
B、Region信息
C、Region起始Rowkey
D、以上全不正确
正确答案：ABC

12.下面哪几项属于ElasticSearch的RESTful请求方式？
A、Get
B、Delete
C、Update
D、Post
正确答案ABD

13.实时检索的解决方案中有哪些组件？
A、HBase
B、Hadoop
C、ElasticSearch
D、Hive
正确答案：AC

14.HBase中会触发Flush操作的有以下哪几项？
A、Reqion中MemStore的总大小，达到了预设的FlushSize闻值
B、当WALS中文件数量达到威值时
C、HBase定期刷新Memstore，默认周期为小时
D、MemStore占用内存的总量和RegionServer总内存比值超出了预设的值大小
正确答案ABCD

15.Zookeeper在HBase中主要起什么作用？
A、管理元数据
B、存储表结构数据
C、存储用户表数据
D、主备切换
正确答案：AD

16.HBase中HMaster主要负责（）
A、表的增册删改查
B、Regionservert负载均衡
C、用户数据读写回
D、Region分布调整
正确答案：ABD

17.下面哪几项属于ElasticSearch的扩展插件？
A、bigdesk
B、head
C、 IKAnalyzer
D、hadoop
正确答案：AC

18.Kafka中删除消息的阈值值有哪几种？
A、数据产生的时间
B、数据使用的频率
C、硬盘总空间大小
D、分区总日志大小
正确答案：AD

19.StructuredStreaming中通过什么机制，解决数据的无序和带后问题？
A、留连接
B、持续查询
C、Wartermark机制
D、事件时间
正确答案：CD

20.Flink运行模式有以下哪几项？
A、YARN模式
B、Standalone模式
C、Local模式
D、Spark模式
正确答案：ABCD

21.Flink有哪些状态储存方式？
A、MemoryStateBackend
B、Mysq1StateBackend
C、FsStateBackend
D、RocksDBStateBackend
正确答案：ACD

22.Redis使用场景包含以下哪些特点？
A、低延时
B、高性能
C、丰富数据结构存取
D、支持持久化
正确答案：ABCD

23.Flink能够通过以下哪种方式提供容错机制？
A、事件时间
B、状态快照
C、流重放
D、窗口
正确答案ABCD

24.Flume中的source工作方式可以分为以下哪几种？
A、中断
B、轮询
C、驱动
D、广播
正确答案：BC

25.Spark的应用场景有哪些
A、选代计算
B、数据挖掘
C、流式处理
D、查询分析
正确答案：ABCD

26.以下关于Transformation的说法正确的是？
A、它的返回值还是一个RDD
B、是RDD的算子类型
C、属于懒操作
D、mapfunc）属于Transformation
正确答案：ABCD

27.Flume的高级组件有哪些？
A、 Sink Processor
B、Channel SelectorsAvro source
5、Source Interceptor
正确答案：ABD

28.GuassDB200的基本功能包含哪些？
A、标准SQL支持
B、提供安装部署工具、集群启停工具、集群状态监控工具、升级和扩容工具
C、支持表空间，支持集群在线扩容功能
D、支持标准JDBC4.0的特性但不支持ODBC
正确答案：ABC

29.实时检索解决方案支持的数据采集有哪些？
A、Loader
B、Spark
C、GraphBase导入工具
D、 Spark Streaming
正确答案ABCD

30.对GaussDB200CUDesc机制描述正确的是？
A、CUDesc为列存表
B、采用Min/Max稀疏素引
C、列存表的辅助表
D、每条记录对应一个CU（60Krows）
正确答案：BCD

31.Redis的持久化策略有哪些？
A、RDB
B、AOF
C、JEDIS
D、SET
正确答案：AB

32.HBase中包合哪些基本的概念？
A、Row Key
B、table
C、namespace
D、Column Family
正确答案：ABCD

33.以下哪些是HDFS的核心组件？
A、Client
B、NameNode
C、DataNode
D、 Product
正确答案：ABC

34.常用的数据结构类型是？需要更新题库V:276137877
A、结构化数据
B、无结构化数据
C、半结构化数据
D、非结构化数据
正确答案：ACD

35.Google发布的三篇论文是哪些？
A、GFS
B、HDFS
C、MapReduce
D、BigTable
正确答案：ACD

36.以下哪些属于大数据存储与管理技术？
A、HDFS
B、HBase
C、Tez
D、 Durid
正确答案：AB

37.以下哪些是离线批处理的特点？
A、处理数据格式多样
B、支持SQL类作业和自定义作业
C、处理数据量巨大
D、处理时间要求高
正确答案：ABC

38.HDFS里包含哪些实例？
A、 NameNode
B、 TaskManager
C、DataNode
D、JobManager
正确答案：AC

39.加的组合满足了大部分的用户实时查询诉求？
A、 MapReduce
B、HBase
C、ElasticSearch
D、Hive
正确答案：BC

40.实时检素解决方案能够满足哪些需求（）
A、多级索引查询
B、图查询查询延退很大
D、文档检索
E、海量数据存储
正确答案：ABDE

41.HBase架构中包含哪些？
A、HMaster
B、 HRegionServer
C、 Client
D、ResourceManager
正确答案：ABC

42.哪些方式能够操作HBase的数据：
A、客户端命令
B、 Phoenix SQL
C、Java API
D、HivesQL
正确答案：ABCD

43.在哪些场景下不能使用HBase作为存储系统（）？
A、需要ACID特性
B、海量数据存储
C主键查询
D、大文件，视频等
正确答案：AD

44.以下哪些不是ElasticSearch的特点？
A、边写边读
B、低性能倒排素引
D、不可扩展伸缩
正确答案：BD

45.GraphBase数据底层可以存储在哪里
A、HBase
B、MySQL
C、.HDFS
D、ElasticSearch
正确答案：AD

46.开发流程中需要经历哪些步骤（）
A、开发环境
B、单元测试
C、应用部署
D、样例代码学习
正确答案：ABCD

47.Flume由哪三部分组成？
A、Master
B、SinkSource
D、Channel
正确答案：BCD

48.下面哪些关键词是Kafka的特点？
A、高吞吐
B、分布式
C、消息持久化
D、支持消息随机读取
正确答案：ABC

50.Flume可以从以下哪些数据源上采集数据？需要更新题库V：276137877
A、实时日志
B、Syslog
C、 Kafka
D、本地文件
正确答案：ABCD

51.大数据计算框架Flink的支持哪些资源调度方式？
A、Docker
B、YARNStandalone
D、Mesos
正确答案：ABCD

53.Gs_dump和gs_dumpa11的异同点是（
A、二者都支持纯文本格式数据的导出。
B、dsdump只支持纯文本格式的数据导出，dsdumpall支持多种数据格式的数据导出
C、二者都支持公共全局对象的数据导出
D、dsdump针对的是单个数据库，dsdumpall针对的是所有数据库
正确答案：ACD

54.创建GaussDB200的索引时，应注意以下哪些事项（）
A、素引的设计与业务强相关，与数据无关。
B、一般在经常排序的字段上添加素引。
C、素引的设计与数据强相关，与业务无关
D、般在热点数据上添加露引
正确答案：ABD

55.SparksQL使用场景丰富，可以处理的数据源包括
A、Json
B、Hive
C、文本文件
D、RDD
正确答案：ABCD

56.关于HDFS中NameNode的作用描述的正确的是？
A、管理HDFS的名称空间（NameSpace）
B、配置副本策略通常为3份
C、处理客户端读写请求
D、执行数据块的读/写操作
正确答案ABC

57.Hive特性包括哪些？
A、易用易编程
B、灵活方便的ETL（extract/transform/load）
C、可直接访问HDFS文件以及HBase。
D、支持MapReduce.Tez、Spark等多种计算引擎
正确答案ABCD

58.数据仓库数据分层的优点包括：
A、减少重复开发
B、把复杂问题简单化隔离原始数据
D、减少数据仓库存储空间
正确答案：ABC

60.Hive数据存储规模包括哪些成分？
A、分区
B、表
C、数据库
D、桶
正确答案：ABCD

63.Redis应用开发在之激动业务目标时需要考虑以下哪些因素？
A、数据量
B、读写性能数据质量
D、持久化
正确答案：ABD

64.StructuredStreaming支持的数据源包括？
A、HDFS
B、Kafka
C、Socket
D、 Rate Stream
正确答案ABCD

65.对HBaseBloomFilter描述不正确的是？
A、用于优化随机写的场景
B、用于优化Scan场景
C、误判率由哈希函数个数k位数组大小m数据量n共同确定
D、判断结果一定正确
正确答案：ABD

66.对GaussDB200集群管理模块（CM）描述不正确的是？
A、负责接收来自应用的访问请求
B、负责存储数据
C、全局事务管理
D、由CMAgent.OMMonito和主备CMServer组成
正确答案ABC

67.Hive的自定义函数包括？
A、UDAF
B、UDCEUDTF
D、UDE
正确答案：ACD

68.HBase读数据时需要读取哪几部分数据？
A、Hloc
B、Mem Store
C、Hfile
D、HDFS
正确答案：BC

69.ElasticSearch的核心概念包合哪些？
A、Mapping
B、Document
C、Type
D、Index
正确答案：ABCD

70.关于华为云MRS中Loader的描述，以下哪些选项是正确的？
A、Loader提供可视化向导式的作业配置管理界面
B、Loader页面是基于开源SqoopWebUI的图形化数据迁移管理工具，该页面托管在Hue的WebUl中
C、Loader提供定时调度任务，周期性执行ETL作业
D、Loader在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等
正确答案：ACD

71，数据仓库分层的优点包括以下哪些选项？
A、减少重复开发量
B、提高资源协调能力
C、隔离原始数据
D、简化复杂问题
正确答案：ACD

72.以下哪些选项是容易造成Hive数据倾斜的原因？
A、distinct count
B、drop table
C、join
D、droup by
正确答案ACD

73.关于GES的应用场景，以下哪些选项是正确的？
A、金融：实时推荐、实时反欺诈，基于知识图谱的风控（信贷、保险）
B、物流和网规：最优路径推荐
C、T业基于知识图谱的设备故障诊断和预警
D、社交分析，寻找特定爱好的好友，或者通过好友的好友，找到用户可能认识的好友
正确答案ABCD

74.HBase中会触发Flush操作的有以下哪几项？
A、Region中MemStore的总大小达到了预设的FlushSize阅值
B、HBase定期刷新Memstore，默认周期为1小时。
C、Memstore占用内存的总量和RegionServer总内存比值超出了预设的阔值大小
D、当WALS中文件数量达到阅值时
正确答案：ABCD

75以下哪些场景适合使用实时检素技术辅助完成
A、通过手机号查询某日某运营商的通话记录
B、根据过去一年的订单记录预测明年某商品的销售量
C、通过身份证号查询某天某酒店入住人信息
D、通过车牌号查询某天某高速收费站过路车辆信息
正确答案ABCD

76.下面选项哪些是HBase数据查询过滤器Filter的比较器？
A、BinaryComparator
B、BinaryProfixComparator
C、RegexStringComparator
D、 SubStringComparatol
正确答案：ABCD

77.有关实时检索引擎中各组件的联系与定位，以下描述中正确的有哪些项？
A、HBaseoElasticSearch的组合满足了大部分的用户实时检素诉求
B、ElasticSearch存储数据性价比低，但是其能够满足场景中多级索引的实时查询需求同时还能够对文档分词建立索引
C、与HBase相比，ElasticSearch在海量数据的情景下存储性能不如HBase，故选择HBase作为海量数据存储的基石
D、图数据库可以完美的解决复杂多级关系查询分析，选用GES来解决图数据的实时查询需求
正确答案：ABCD

78.Flink计算时间不包含以下哪几种时间语义？
A、DelayTime（延退时间）
B、Start Time（开始时间
C、ProcessingTime（处理）
D、EventTime（事件时间）
正确答案：AB

79.一个典型的Kafka集群中包含以下哪此组件？
A、若干个Consumer
B、一个Zookeepers集群
C、若干个Brocker
D、若干个Producer
正确答案：ABCD

80.以下关于Topic的描述，正确的是哪些项？
A、生产者产生的消息逐条放到Topic的末尾
B、Topic的分区数量可以超过Broker的存活数量
C、Topic的副本数量可以超过Broker的存活数量
D、Topic可以理解为一个存储消息的队列
正确答案：AD

81.以下哪些项属于Flink常见的窗口类型？
A、滑动计数窗口
B、会话窗口
C、滚动时间窗口
D、滚动计数窗口
正确答案：ABCD

82.Flink提供的窗口分配器，包含以下哪些项？
A、全局窗口
B、滑动窗口
C、会话窗口
D、滚动窗口
正确答案：ABCD

83.一家搜索引整公司需要7*24不间断提供海量用户的实时查询请求，这最有可能使用到以下哪些大数据开发组件的组合？
A、MapReduce
B、ElasticSearch
C、Hive
D、HBase
正确答案CD

84.以下哪些选项属于集群资源规划设计考虑的角度？
A、容量预留
B、数据质量
C、数据总规模
D、单条数据大小
正确答案：ACD

答案解析：
85.Hive业务场景中，常常会出现某一张大表连接一张较小的维表，那么为了提高这个JoIN操作的效率，可以进行如下哪些操作？
A、大表在前小表在后
B、小表在前大表在后
C、设置参数hive.auto.convert.join为true
D、设置参数hive.groupby.skewindata为true
正确答案：BCD

86.HBase的Filter过滤器有什么作用？
A、过滤region
B、过滤列值过滤列名
D、过滤rowkey
正确答案：BD

87.Redis中Key的expire操作适合用于以下哪些应用场景？
A、存储特定用户所有历史信息
B、限时的优惠活动信息
C、限制网站访客访问频率
D、网站积分排行榜
正确答案BCD

88.KafkaConsumer在跟踪消费记录时，需要以下哪几个选项的信息？
A、partition
B、offsetproducer
D、topic
正确答案ABD

89.Flink有哪些状态存储方式？
A、MySqIStateBackend
B、MemoryStateBackend
C、RocksDBStateBackend
D、 FsStateBackend
正确答案BCD

90.Redis的AOF持久化中，写命令同步的时机有以下哪几项？
A、appendfsync none
B、appendfsync everysec
C、appendfsync no
D、appendfsync always
正确答案：BCD

91.Zookeeper在Kafka中有以下哪些功能？
A、协调Kafka与ResourceManager的通信
B、触发负载均衡，保障一个consumergroup内的多个consumer的订阅负戴平衡管理broker与consumer的动态加入与离开
D、负责partition中index数据的生成
正确答案：BC

92.现代企业数据分析平台向着云化和融合发展的优势有哪些？
A、超敏捷应用
B、资源单性分配
C、多场景分析
D、交又融合分析
正确答案：ABCD

93.以下关于Loader的描述中，正确的有哪几项？
A、提供可视化向导式的作业配置管理界面。
B、是基于开源Flume研发，做了大量优化和扩展。
C、提供定时调度任务，周期性执行Loader作业
D、在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统。
正确答案：ACD

94.大数据技术在我们身边应用的越来越广，以下场景中有哪些场景可以应用大数据技术？
A、游戏画面实时刷新
B、广告精准营销
C、道路智能规划
D、人物国像
正确答案ABCD

99.大数据计算框架Flink的支持以下哪些资源调度方式？
A、Mesos
B、DockerYARN
D、Standalone
正确答案：ACD

10 多选题

2.以下哪些选项属于离线批处理的特点？
A、处理时间相对较长
B、数据不落地、存储量不大
C、数据吞吐量较大
D、处理数据量相对较大
正确答案：ACD

ElasticSearch用于日志搜素和分析，离不开其拥有的生态圈系统和解决方案，这些开源软件之间互相配合使用，完美衔接高效地满足了很多场景的应用。那么其生态圈系统具体包括以下哪些内容？
A、数据接入层Logstash
B、用户接入层Kibana
C、插件扩展层
D、数据持久化与分析层Elasticsearch
正确答案：ABCD

5.通过Loader的可视化界面，可以实现以下哪些操作：
A、数据可视化操作
B、数据分析任务
C、制定多种不同的数据源
D、配置数据的清洗和转换步骤
正确答案ABC

7对MRS的HBase性能描述正确的是（）
A、最大支持512节点，10P级数据
B、支持存储海量小文件
C、rowkey实时查询延退可达16ms
D、BulkLoad增强
正确答案：ACD

8.以下哪些算子是窄依赖？
A、union
B、map
C、filter
D、groupBy
正确答案：ABCD

10.GaussDB200的高可靠主要体现在（）？
A、GTM采用Active-Standby模式。
B、提供集群管理和数据节点HA。
C、CN支持多CNActive-Active模式HA
D、支持标准SQL和标准JDBC特性
正确答案：BC

11.某开发小组可以利用ElasticSearch实现下列哪些功能？
A、查询交易凭证
B、开发交易系统
C、查询客户信用记录
D、自动化评估贷款额度
正确答案：AC

12.HBase读写用户表数据时需要下列哪些角色参与？
A、 RegionServer
B、HMaster
C、 Zookeeper
D、Region
正确答案：ABD

13.Flume中以下哪些选项属于SinkProcessor的类型？
A、 Failover Sink Processor
B、 Blank Sink Processor
C、Default Sink Processor
D、Load balance Sink Processor
正确答案：ACD

14.StructuredStreaming中OutPut定义的存储方式包含以下哪几种？
A、Modify Mode
B、Append Mode
C、Update Mode.
D、 Complete Mode
正确答案：BCD

15.Flume中拦截器包含以下哪些？
A、Host Interceptor
B、 Timestamp Interceptor
C、Search and Replace Interceptol
D、 Regex Filtering Interceptor
正确答案：ABCD

16.下面关于GaussDB200的逻辑集群说法正确的是（）？
A、逻辑集群的意思就是通过物理服务器的隔离来达到数据的分离处理。
B、在逻辑集群上实现多租户管理，达到CPU.内存等计算资源的控制隔离
C、逻辑集群的最终目的是实现资源隔离及资源单性能力。
D、一个物理节点对应一个逻辑集群
正确答案BC

17.在GaussDB200的存储过程中，NULL代表的意思是（？
A、可以表示缺首值。
B、可以表示字段值为空
C、可以表示布尔值
D、可以表示空语句
正确答案：ABD

18.在公安领域的大数据批量离线处理平台中，以下描述准确的是（）
A、不同的数据来源可以整理后划分实时数据、增量文件、全量文件和数据库等
B、数据来源可以按照结构或类型分为视频/图像数据、文本数据、数据库中数据等
C、数据来源包括公安系统、社会系统、互联网系统其他如运营商系统等。
D、经过整理后的原始数据可以根据业务主题，分为基本信息、交往圈信息、轨迹信息、行为信息等存储
正确答案：ABCD

19.Flink中的计算时间包含以下哪几种？（
A、Delay Time
B、 Processing Time
C、Event Time
D、Ingestion Time
正确答案BC

20.Region分裂时，下列哪些选项会参与？0
A、MAster
B、 Region Server
C、Zookeeper
D、以上全不正确
正确答案：ABC

21.以下关于ElasticSearch描述正确的是？（
A、一个分布式的RestFul风格的搜索和数据分析引擎
B、可作为关系型数据库使用
C、可作为NoSQL数据库使用个高性能，基于Lucene的全文检素服务
正确答案：ACD

22.在ApacheHadoop中，关于HDFS的回收站机制，描述正确的是？
A、回收站里的文件可以快速恢复。
B、可以设置一个时间阀值当回收姑里文件的存放时间超过这个阀值或是回收站被清空时，文件才会被彻底删除，并且释放占用的
数据块。
C、删除文件时，不会真正的册除，其实是放入回收站
D、回收站默认是关闭的
正确答案：ABCD

23.可以通过Java调用API对HDFS文件系统操作的内容包括？（）
A、查询HDFS指走目录下的文件
B、读取HDFS中指定文件
C、在HDFS上创建文件夹
D、上传文件到HDFS上
正确答案：ABCD

24.大数据技术的“三驾马车”具体指以下哪些？（）
A、大数据分布式计算框架MapReduce
B、分布式文件系统GFS
C、数据库系统BigTable
D、数据容器Dockel
正确答案ABC

25.一般在什么时候会采用数据分区？
A、需要执行大量的热点数据查询作的时候
B、需要执行大量的数据删除撰作的时候
C、当表中数据量比较多（千万级别以上）的时候
D、需要执行大量的数据更新提作的时候
正确答案：ABCD

26.Kafka的应用场景有哪些？
A、元信息监控
B、行为监控
C、流处理
D、数据处理
正确答案：ABC

27.关于Scan命令，下列说法正确的有哪些？
A、scan可以通过setcaching与setBatch方法提高速度
B、scan可以通过setFilter方法添加过滤器
C、scan可以通过setstartRow与setEndRow来限定范围
D、scan读取数据是一次性全部把数据从服务端读取到
正确答案ABCD

29.Kafka的特点包括（）。
A、分布式
B、消息持久化
C、高吞吐
D、支持消息随机读取
正确答案：ABC

30.以下关于Fink的窗口描述正确的是（）
A、会话窗口是将数据聚合到会话窗口中，由非活跃的间隙分隔开。
B、我们可以每30秒计算一次最近一分钟用户购买的商品总数，这个就是时间滑动窗口的应用方式
C、窗口可以是时间驱动的也可以是数据驱动的
D、Flink窗口按窗口行为划分：Tumbling Window、Sliding Window、Session Window。
正确答案ABCD

31.关于实时流数据处理，通常的处理要求包括以下哪些选项？
A、处理之后的数据量依然巨大，达到TB级甚至PB级的数据量
B、数据需要尽快的得到处理
C、能处理源源不断的数据
D、处理的结果能够尽快地展现
正确答案：BCD

33.在GaussDB200中，关于Schema和Database，下而说法正确的是（）
A、二者都能实现资源隔离
B、Database之间无法直接访问，但通过权限授予可以访问数据
C、相比于Database,Schema的隔离更加的彻底。
D、Schema和用户强相关的，通过权限控制语法可以实现不同用户对各Schema的权限。
正确答案ABD

34.关于GaussDB200的约束，说法正确的是（？
A、唯一约束是指字段的值唯一，行列表都支持。
B、PCK也是一种约束，行列都支持
C、NULL约东也是一种约束，行列表都支持。
D、主键约束是指主键的值是唯一的，只支持行存表。
正确答案：ACD

35.Katka每个Partition在物理上对应的文件夹下存储哪些文件？
A、素引文件
B、用户文件
C、消息文件
D、配置文件
正确答案：AC

36.Flume中拦截器包合以下哪些？
A、 Search and Replace Interceptor
B、Regex Filtering Interceptor
C、Timestamp Interceptor
D、 Host Interceptor
正确答案：ABCD

37.计算10分钟内的单词，每5分钟更新次。若程序在12:00开始运行，在12:07收到的个数字。这个数字应该对应于以下哪些窗口的计数
A、12:00-12:10
B、11:55-12:05
C、12:05-12:15
D、12:10-12:20
正确答案：AC

38.StructuredStreaming不能提供以下哪几种类型的保证？
A、More than once
B、At most once
C、Exactly once
D、Atleast once
正确答案：AB

40.下列选项对ElasticSearchreplicas的描述，正确的是
A、代表素引副本
B、提高系统容传性
C、压缩素引大小
D、提高检素效率
正确答案：ABD

41.关于HBase组件的描述，下列哪几项是正确的？
A、是一种NOSQL数据
B、存储数据是以K-V的开形式
C、是分布式的
D、是面向列的
正确答案：ABCD

42.客户端使用get方式读取HBase用户数据时，需要查询meta表的哪些数据：
A、RegionServert也址上
B、Region起始rowkey
C、Region大小
D、Region分裂时间
正确答案：AB

43.ElasticSearch在部署时，对Linux的设置有哪些优化方法？
A、关闭缓存swap
B、堆内存设置为：Min
C、线程池+队列大小根据业务需要做调整
D、设置最大文件句柄数
正确答案：ACD

44.按照应用类型，Flink窗口可以划分为以下哪几种
A、事件窗口
B、容量窗口
C、滚动窗口
D、时间窗口
正确答案：ACD

45.大数据其中一个最明显的特征是数据量巨大，那么所谓的数据量巨大主要指哪些级别的数据量？
A、MB
B、TB
C、ZB
D、PB
正确答案：BCD

46.以下哪些数据库的引擎适合做数据仓库？
A、Exadata
B、Teradata
C、 Redis
D、Oracle
正确答案：ABD

47.某大数据业务人员因误操作，导致删除了部分HDFS的业务数据。为了避免再次出现，如何从技术角度出发去规避这个问题？
A、禁止HDFS的删除操作。
B、开启HDFS的回收站机制，及时恢复数据。
C、平时注重安全信息的普及，多加宣传
D、对业务人员进行权限划分，避免非法或敏感操作，如删除等
正确答案：BCD

48.HBase中包含的典型的Filter有以下哪几项？
A、 RowFilter
B、FilterList
C、singleColumnValueFilter
D、 KeyOnlyFiter
正确答案：ABCD

49.以下哪些场景可以使用HBase作为存储系统？
A、Row-Key查询
B、满足ACID特性
C、海量数据存储
D、大文件（TB）
正确答案AC

50.以下Hive数据仓库数据表分层的描述，准确的是？
A、ADS层，为各种统计报表提供数据，做分析处理同步到RDS数据库里边
B、DWD层结构和粒度与原始表保持一致，简单清洗，数据明细详情，去除空值，脏数据，超过极限范围的明细解析
C、ODS层，通常表述原始数据存储表，Hive接收到原始的数据通常是杂乱无章的，但是又具有安全隐私考虑，通常应用侧是
不能看到的
D、DWS层，以DWD为基础，进行轻度汇总
正确答案：ABCD

51.HBase适用于下列哪些应用场景？
A、图片数据存储
B、银行交易系统
C、商品数据存储
D、消息中间件
正确答案：ABC

53.对于GaussDB200而言，字段的设计应该注意以下哪些事项（）
A、在满足业务精度的情况下，NUKREIC的优先级比浮点数高
B、尽量使用符合实际业务描述的字段
C、尽量使用高效率的字段类型
D、考虑数据美观，尽量使用同一种数据类型，比如Text.
正确答案：ABC

54.行存表相比于列存表的区别是？
A、同样的教据，采用行存表存储比列存储所耗的时间更少。
B、行存表适合数据更新，列存表适合做数据聚合
C、行存表面向百万级以下数据量，列存表面向千万级以上数据量
D、行存表按行存储数据，列存表按列存储教据
正确答案：ABD

56.随着大数据越来越被重视，数据采集的挑战也变的尤为突出，常见的挑战包括？
A、数据量大
B、数据源多种多样
C、数据采集的可靠性保道
D、巡免重复数据
正确答案：ABCD

57.Spark的应用场景包括？
A、查询分析（QueryAnalysis）支持标准SQL查询分析，同时提供DSL（Dataframe），并支持多种外部
B、流式处理（StreamingProcessing）。支持秒级延退的流式处理，可支持多种外部改据源。
C、数据挖掘ataMining），在海量数据基础上进行复杂的挖掘分析，可文持各种数据挖掘和机器学习
D、效据处理（DataProcessing），可以用来快速处理数据，兼具容错性和可扩展性
正确答案：ABCD

58.大数据离线批处理场景中常见的数据源包括
A、数据库
B、批量文件数据
C、流式数据Socket流
D、网页日志流
正确答案：ABC

59.在HA模式下，HDFS里包合哪些组件？
A、 NameNode
B、DataNode
C、TaskManager
D、Secondary NameNode
正确答案：ABD

60.Hive执行查询的时候会调用哪些模块？
A、executor
B、complier
C、optimizer
D、 MetaStore
正确答案ABCD

61.以下选项对GraphBase概念描述正确的是？
A、VertexLabe1:节点的标签，用于表示现实世界中的实体类型
B、Edge:边，用于表示关系度
C、Vertex:节点/顶点，用于表示现实世界中的实体对象
D、EdgeLabel.边的标签，用于表示现实世界中的关系类型
正确答案：ACD

62.大数据计算框架Spark中除了RDD还有哪些数据类型
A、DataType
B、DataSchemaDataSet
D、DataFrame
正确答案CD

53.以下哪些数据可以转化为Dataset或DataFrame？
A、JSON
B、JAVA String
C、JPG
D、MySql Table
正确答案：BD

64.以下哪些选项属于FlinkLibraries层的应用？
A、图像处理的Gelly
B、处理逻辑表查询的Table
C、复杂事件处理的CEP
D、机器学习的FlinkML
正确答案：AD

66.Redis中Key的生存时间expire适合用于以下哪些应用场景？
A、限制网站访客访问须率
B、限时的优惠活动信息
C、网站积分排行榜
D、存储特定用户所有历史信息
正确答案：ABC

67.以下哪些情况下可以采用Replication方式存储数据（？
A、存储的表的数据量较小
B、需要较高的并发分析能力
C、存储的表的数据量较大
D、以上全都正确
正确答案AB

68.以下哪些选项是实时检索适用的场景
A、查询条件比较复杂的场景
B、查询速度要求高的场景
C、图片查询场景
D、高并发的场景
正确答案：BCD

69.GraphBase能够处理海量数据的原因是什么？
A、图机制特性
B、基于HBase的分布式存储机制
C、基于Elasticsearch的索引机制
D、基于Spark的分布式内存计算枝术
正确答案：BCD

70.某开发团队要使用E1asticSearch做检索工具，下列哪些选项可以用E1asticSearch检索？
A、关系型数据库数据
B、图片
C、xml文档
D、向量化数据
正确答案ABC

71.Flink窗口按分割标准划分为以下哪几种？
A、容量窗口
B、时间窗口
C、事件窗口
D、滚动窗口
正确答案BC

80.某开发小组可以利用ElasticSearch实现下列哪些功能？（多选）
A、开发交易系统
B、查询交易凭证
C、查询客户信用记录
D、自动化评估贷款额度
正确答案：BC

83.实时检索解决方案的项目流程包括以下哪些选项？（多选）
A、应用部署
B、代码工程
C、应用开发
D、项目环境准备
正确答案ABCD

存疑问题

52.下列关于Explain的关键字描述正确的是（）
A、在Explain的基础上，通过添加Analyze同时显示该语句执行时每个算子的实际开销（单位B毫秒）和行数信息，对于判断优
化器的估算是否准确提供依据。
B、在ExIplain的基础上，添加Verbose显示出计划的额外详细信息，包括每个算子的输出列，重分布算子的分布列等
C、Explain通过指定option选项参数FORMAT来指定输出格式，默认是text格式
D、在Explain的基础上，添加Performance显示出计划的额外详细信息，包括每个算子的输出列，重分布算子的分布列等
正确答案：ABC
本题目A是否正确存疑

52.下列关于Explain的关键字描述正确的是（）？
A、Explain通过指定option选项参数FORMAT来指定输出格式，默认是text格式
B、在Explain的基础上，通过添加Analyze同时显示该语句执行时每个算子的实际开销（单位为毫秒）和行数信息，对于判断优化器的估算准确提供依据
C、在Explain的基础上，添加Performance显示出计划的额外详细信息，包括每个算子的输出列，重分布算子的分布列等
D、在Explain的基础上，添加Verbose显示出计划的额外详细信息，包括每个算子的输出列，重分布算子的分布列等
正确答案：BD
本题目A是否正确存疑

39.下列哪些选项不是HBase为null的列不占用存储空间的原因？（
A、Region分裂
B、列存储
C、行存储
D、Key-Value结构
正确答案：D
答案解析：存疑！！！

49.下列哪些选项不是HBase为null的列不占用存储空间的原因？
A、列存储
B、Key-Value结构
C、Region分裂
D、行存储
正确答案：CD
答案解析：存疑！！！

52.Hive中的解释器（complier）、优化器（optimizer）、执行器（executor）组件用于HQL语句从词法分析、语法分析、编
译、优化以及查询计划的生成。生成的查询计划存储在（）中，并在随后由（）调用执行。
A、内存、MapReduce
B、HBase、Yarn
C、HDFS、Tez
D、HDFS、Yarn
正确答案：C
答案解析：存疑！！！

36.Hive中的解释器（complier）优化器（optimizer）执行器（executor）组件用于HQL语句从词法分析.语法分析.编译：优化以及查询计划的生成。生成的查询计划存储在（）中，并在随后由（）调用执行。
A、 HDFS.MapReduce
B、内存、MapReduce
C、HDFS、Yarn
D、HBase.Yarn
正确答案A
答案解析：存疑！！！

98.以下选项对GES概念描述正确的是（）。
A、EdgeLabel:边的标签，用于表示现实世界中的关系类型
B、Vertex:节点/顶点，用于表示现实世界中的实体对象
C、Edge:边，用于表示关系度
D、VertexLabel:节点的标签，用于表示现实世界中的实体类型
正确答案：ABD
答案存疑
47.以下选项对GES概念描述正确的是
A、Edge:边，用于表示关系度
B、Edge Label:边的标签，用于表示现实世界中的关系类型
C、Vertex Label:节点的标签，用于表示现实世界中的实体类型
D、vertex:节点/顶点，用于表示现实世界中的实体对象
正确答案：D
答案存疑

Flume中轮询调度（RoundRobinScheduling）算法就是以轮询的方式依次请求不同的服务器，它是一种有状态调度。
A、正确
B、错误
正确答案：B

18.Flume中轮询调度（RoundRobinScheduling）算法就是以轮询的方式依次将请求调度不同的服务器，它是一种有状态调度
A、正确
B、错误
正确答案：A

25.在Hive的SQL语句执行中，因为groupby等关键字的使用会导致数据倾斜。因此为了表面数据倾斜，应禁止该类操作执行
A、正确
B、错误
正确答案：A

大数据HCIP考试宝题库

01

02

03

04

05

06