单选

哪一个可以作为Kafa的Consumer？
A、Sensor(传感器)
B、Crawler(爬虫)
C、Front End（前端）
D、Data WareHouses（数据仓库）

关于HBase的特性描述错误的是哪一个选项？
A、分布式
B、不支持扩容
C、高性能
D、高可靠

哪一项不是实时检索技术在金融行业的应用特点
A、查询条件复杂
B、时延要求高
C、高并发
D、存在海量图片小文件

哪一项是HBase不适合的应用场景
A、高吞吐率应用场景
B、海量数据（TB、PB）应用场景
C、要求具有完全ACID特性的应用场景
D、半结构化数据应用场景

关于HBase客户端的使用、以下描述错误的是哪一选项
A、使用get命令查询数据时需指定行键信息
B、插入数据需要用put命令
C、无法通过HBase客户端创建命名空间
D、创建表可以指定列族名称

哪一个组件可以将SQL语句转化为HBase的Scan操作
A、Apache HDFS
B、Apache Storm
C、Apache MapReduce
D、Apache Phoenix

关于HBase的说法中，哪个是错误的
A、HBase需要依赖HDFS作为底层的文件存储系统
B、HBase需要依赖Zookeeper进行协同服务
C、HBase是一个NoSql数据库
D、HBase对于大表的读写访问需要分钟级的时延

关于ElasticSearch的说法、错误的是
A、不支持非结构化数据
B、能够水平扩展
C、原型环境和生产环境可无缝切换
D、对Lucene进行了扩展

以下关于Sqoop数据导入原理的描述中、错误的是
A、Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中
B、Sqoop会根据传入的num-mappers来确定划分几个区域
C、num-mappers越大效率越高
D、Sqoop在import时，需要指定saplit-by参数

通过shell哪个命令上传某个文件至HDFS文件系统中。
A、-put
B、-get
C、-upload
D、-cat

哪一项不是企业级大数据平台的特点
A、可平滑拓展
B、可维护性差
C、数据共享
D、资源共享

复杂大数据集群中。资源分配一般分为独占模式和共享模式。描述正确的是
A、共享模式简单、按照配额隔离即可
B、独占模式配置是独占的、不用时无法共享只能闲置
C、共享模式仅用于需要特殊资源保障的业务
D、独占哦是资源利用率高、可以充分利用资源，减少闲置。

大数据与传统数据的区别不包括哪一方面
A、处理对象
B、数据规模
C、编程语言
D、数据类型

关于Flink的角色，哪一个是错误的
A、Client是Flink程序提交的客户端，对用户提交的Flink程序进行预处理、并提交到Flink集群中处理
B、TaskMannager是实际负责执行计算的Worker
C、TaskMannager负责从给用户提交的Flink程序配置中获取Joblanage的地址
D、TaskMannager扮演着集群中的管理者Master的角色。它是多个集群的协调者。

Kafka的shell命令中，哪一个参数是设置副本个数？
A、replication-factor
B、broker-list
C、bootstrap-server
D、partitions

关于RDD，说法错误的是哪一项
A、RDD是Spark对基础数据的抽象
B、RDD是一个只读的、可分区的分布式数据集
C、RDD默认存储在磁盘
D、RDD具有血统机制（Lineage）

消费者在消费Kafaka数据的时候需要执行一下哪个选项的信息
A、Theme
B、Object
C、Time
D、Topic

实时处理的步骤中、实时计算的前一步是以下哪一个选项
A、实施落地
B、实时展示
C、实时缓存存储
D、实时采集

HBase中一张表通过Region的Start key为10、20和30进行region分裂。那么行键为222的数据将属于哪一个region
A、[0,10]
B、[10,20]
C、[30,”+inf]
D、[20,30]

HBase元数据metaRegion路由信息保存的位置是
A、Root表
B、HMaster
C、Meta表
D、Zookeeper

关于ElasticSearch性能优化，错误的是
A、索引创建好后依然可以动态调整分片数量
B、分片最大容量不要超过ElasticSearch推荐的最大JVM堆空间32G
C、分片数不超过节点数的3倍。用较少的分片获得更佳的性能
D、副本数建议设置为1.过多的副本需要更多存储空间

在HBase中，实现不同HRegionServer之间的负载均衡由哪一个组件负责管理
A、Hlog
B、Hfilen
C、HMaster
D、MemStore

ElasticSearch以下哪一个选项是正确的
A、ElasticSearch可以支持模糊查询
B、ElasticSearch只在数据量较小的时候才有性能优势
C、ElasticSearch自身不带Restfull API接口
D、ElasticSearch不支持分布式

Hive表与mysql类似存在分区的概念。那么对于Hive的分区，以下描述中正确的是哪一项。
A、Hive的分区数量可以通过参数动态生成
B、Hive的分区针对的是文件，分桶针对的是文件夹
C、Hive的分区字段与MySQL一样必须存在
D、Hive的分区和分桶是一个概念

以下哪个场景是HDFS适合做的
A、流式数据访问
B、低延迟读取
C、大量小文件存储
D、随机写入

HDFS是基于Google发布的哪一篇论文设计开发而来的？
A、MapReduce
B、SparkCore
C、GFS
D、Bigtable

编写Scala代码时，通过以下哪个算子可以实现数据过滤
A、flatmap
B、collect
C、filter
D、map

Hive与传统数据仓库的区别不包括以下哪一项
A、易用性
B、执行引擎
C、索引
D、面向对象

以下对离线批处理的概念理解错误的时哪一项
A、离线批处理针对的数据量较大
B、离线批处理通常通过MR作业、Spark作业或者HQL作业实现
C、离线批处理占用的内存资源较多
D、离线批处理对数据处理的时延要求不高

以下哪一项不是基于数据湖构建一站式AI开发平台ModelArts的特点？
A、可视化管理：数据准备、模型构建部署、可视化管理
B、在线推理、批处理推理和边缘推理、满足多种业务场景诉求
C、AI全流程开发：高精度、高效率完成开发任务
D、需自行安装下载TensorFlow、PyTorch等主流计算框架

Structured Streaming程序执行过程中，定义流计算过程之后是哪一个步骤？
A、创建输入数据源
B、创建Spark Session对象
C、导入相关依赖模块
D、启动流计算，并计算输出结果

Kafka的特点不包括以下哪个选项
A、分布式
B、消息持久化
C、高吞吐
D、随机读取

某网站想要实时热度排名，最佳技术实现方式是
A、mapReduce的离线计算
B、HDFS的海量存储
C、Redis的排序计算
D、Hive的离线计算

Kafka运行时直接依赖于哪一个组件
A、HBase
B、spark
C、HDFS
D、zookeeper

下列关于ElasticSearch的说法错误的是哪一项
A、可以扩展到上百台服务器、处理PB级别的结构化和非结构化数据
B、分布式文件存储，并将每一个字段都编入索引，使其可以被搜索
C、实时分析的分布式搜索引擎
D、ElasticSearch可以存储和检索PB级的数据，只适用于离线批处理场景

下列哪一项不是ElasticSearch的扩展插件
A、es-hadoop
B、hadoop
C、ElasticSearch-head
D、Logstash

分布式图数据库，以下描述正确的是哪一项
A、数据库与关系型数据库可以灵活转化
B、图数据库将数据切分为多个数据库进行存储，数据库大小固定128MB
C、图数据库采用ER实体关系进行存储
D、图数据库以“图”这种数据结构来存储和查询数据

关于HBase中BloonFilter。描述错误的是哪一个
A、BloonFilter可以背用来快速的判断一条数据在一个大数据集合中是否存在
B、如果BloonFilter判断结果为该条数据不存在，这一结果拥有一定的误判率
C、Hbase的BloonFilter的相关数据背保存在HFile中
D、BloonFilter用来优化一些随机读取的场景。即Get场景

以下有关Hive多表关联的描述正确的是哪一个选项？
A、Hive在进行多表关联时，从右往左进行关联操作
B、Hive最右边的表是大表。且无法通过命令指定哪张表是大表
C、在Hive SQL中建议把最小表写在右边，这样可以提高执行效率
D、一般情况下有多少张表进行Join连接操作。就会启动多少个MapReduce任务

关于Hive SQL建表语句的说法中，以下哪一个选项是正确的。
A、Hive 支持对整张表以及表中每一列添加Commnet
B、建表时必须指定ROW FORMAT为delimited 否则无法识别
C、建表时必须指定HDFS路径
D、建立分区表只需要指定CLUSTERED BY信息即可

以下哪个选项不属于MRS日常运维不影响业务这一特性
A、扩缩容业务无感知
B、修改配置滚动重启
C、滚动升级补丁
D、单集群跨AZ高可用

以下哪一选项不属于华为云MRS中Manager的特点
A、运维难度高
B、故障快速定位
C、管理员可全面掌握集群运行状态
D、一键式部署、升级

Kafka日志数据文件默认保留的最长时间是多少小时
A、48
B、168
C、96
D、24

以下关于云数据描述正确的是哪一个选项？
A、云计算就是大数据
B、大数据与平台融合是发展趋势
C、大数据可以解决所有事情
D、大数据必须基于云平台

Hive数据存储模型中不包括以下哪一结构
A、表
B、块
C、分区
D、桶

HDFS中**-mkdir**命令可以实现以下哪一个选项的功能
A、显示目录
B、显示文件内容
C、创建目录
D、改变文件属性

ElasticSearch数据写入阶段有很多调优方式、下列错误的是哪一个
A、禁用wildcard
B、尽量使用自动生成的id
C、写入前副本数设置为0
D、写入过程中，采取bulk批量写入

以下哪一选项不是批流融合的实时决策系统的优势？
A、维护难度大
B、吞吐量高
C、批流融合计算
D、可靠性高

以下哪个选项不属于智慧城市所需要的技术
A、手工制作
B、AI计算
C、大数据
D、智慧交通

在Kafka集群中，Kafka服务端的角色是下列哪一
A、Producer
B、zookeeper
C、broker
D、Consumer

以下哪一个选项不是自建混合负载、资源统一调度带来的客户价值
A、支持授权用户数量大幅减少
B、资源池隔离、计算任务相互不影响
C、CPU,GPU异构计算调度
D、混合负载，统一资源池调度、提升资源利用率

在大数据业务处理场景中。常常说不适合存储大量的小文件主要是受哪个组件的影响
A、HDFS
B、Hive
C、Yarn
D、MapReduce

Structured Streaming程序执行过程中，创建输入数据源之前是哪一个步骤
A、启动流计算并计算输出结果
B、定义流计算过程
C、创建spark session
D、导入相关依赖模块

以下关于keyby算子的描述，错误的是哪一项
A、逻辑地将一个流拆分成不相交的分区
B、每个分区包含具有相同key的元素
C、在内部以hash的形式实现
D、数据类型转换是keyedStream—> DataStream

下面哪一个不是Kafka的组件
A、Topic
B、Consumer
C、zookeeper
D、Brokers

Redis中相对于RDB持久化存储，以下对AOF持久化描述错误的是？
A、占用较多磁盘的IO开销
B、内存占用过多、文件体积大
C、发生故障时、恢复速度慢
D、AOF持久化使用快照的方式实现的

如果使用Redis统计topN元素可以使用哪些数据类型
A、set
B、list
C、stored set
D、hash

下列哪一个不是structured streaming支持的source数据源
A、Kafka
B、socekt
C、Hive
D、HDFS

哪一个命令可以清空Redis实例下所有数据库的资料
A、Flushdb
B、Dropdb
C、Flushall
D、Dropall

Flink哪种机制可以保证task运行失败时，其状态能够恢复
A、窗口
B、时间时间
C、检查点
D、有状态处理

Structured Streaming中以下哪项计划的执行顺序是正确的
A、物理计划——逻辑计划——优化的逻辑计划
B、逻辑计划——优化的逻辑计划——物理计划
C、逻辑计划——物理计划——优化的逻辑计划
D、优化的逻辑计划——逻辑计划——物理计划

Hbase不支持以下哪些SQL操作
A、Spark SQL
B、Hive SQL
C、mysql
D、phoenix SQL

以下关于HBase中RegionServer的功能描述不正确的是哪一项
A、管理所有的Region、Region可以在RegionServer之间迁移
B、HBase的数据处理和计算单元
C、ReionServer是HBase数据服务进程，负责处理用户数据的读写请求
D、ReionServer一般与HDFS集群的NameNode部署在一起

对ElasticSearch检索流程描述正确的是（）
A、分片节点汇总结果发送给客户端
B、检索节点汇总结果发送给客户端
C、检索节点不需要汇总结果直接把结果发送给客户端
D、分片节点不需要汇总结果直接把发送给客户端

关于GES技术原理，错误的是
A、基于ElasticSearch的索引机制，能够根据索引查询数据
B、基于YARN的资源调度，可以并行执行任务
C、基于Spark的分布式内存计算技术，支持数据快速导入
D、基于HBase的分布式存储机制，能够处理海量数据

PUT http://127.0.0.1:9200/commodity这段代码的作用是什么
A、创建索引
B、删除索引
C、维护索引
D、更新索引

关于Sqoop数据导入原理的描述中。错误的是哪一项？
A、num-mappers越大效率越高
B、Sqoop在import时，需要指定split-by参数
C、sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同的map中
D、sqoop会根据传入的num-mappers来确定划分几个区域

某大数据业务人员对某数据创建Hive表结构，其中的某个时间类型yyyymmdd，那么可以使用以下哪一项作为字段类型
A、varchar
B、string
C、doublue
D、int

Hive中的解释器（complier）、优化器（optimizer）、执行器（executor）组件用于HQL语句从词法分析、语法分析，编译，优化以及查询计划的生成、生成的查询计划存储在（）中，并在随后由（）调用执行
A、HDFS、Tez
B、HBase、YARN
C、内存、MapReduce
D、HDFS、yarn

大数据离线批处理平台的前期技术选型，哪个大数据组件不属于离线批处理业务所涉及到的组件？
A、HDFS
B、Spark
C、Storm
D、Hive

对于离线批处理的概念理解错误的是
A、离线批处理针对的数据量较大
B、离线批处理占用的内存资源消耗多
C、离线批处理对数据处理的时延要求不高
D、离线批处理通常MR作业，Spark作业或者HQL作业实现

某大数据运维人员想通过shell命令上传某个文件至HDFS文件系统中。以下哪个命令能帮助他完成这个操作。
A、-cat
B、-upload
C、-put
D、-get

以下关于公共安全行业专题分析与查询业务场景描述错误的选项是
A、临时交互式查询任务对数据进行精确或者模糊查询
B、使用标准SQL语句进行查询，根据查询结构筛选目标人群，侦办案件
C、数据湖内多个数据源只能单独访问再呈现结果
D、原始数据经过批处理后，结果集写入到指定的文件目录，供交互时查询

某项目小组接到一个大数据实时分析项目，且对时延要求很高，以下哪种大数据计算框架最合适
A、spark
B、Flink
C、HBase
D、MapReduce

适应离线批处理的Hadoop平台，适应实时处理流计算平台等，属于哪种类型的架构？
A、分离架构
B、单一架构
C、融合架构
D、多维架构

关于Elasticsearch缓存机制理解不正确的是
A、缓存主要分三种：Query Cache、Fielddata Cache、Requeset Cache
B、Requeset Cache：shard级别的缓存，是为了缓存”分片级“的本地结果集
C、Fielddata Cache：专门针对分词的字段在查询期间的数据结构的缓存
D、Query Cache：shard级别的缓存，是对一个查询中包含的过滤器执行结果进行缓存。

大数据技术的4V特征不包含以下哪个
A、Virtual
B、Velocity
C、Variety
D、Volume

关于Flink的描述，错误的是哪一项
A、Flink没有单点故障，提供高吞吐量和低延迟能力
B、Flink支持大规模进行，在上千个节点运行时有很好的吞吐量和低延迟
C、Flink是一个批处理和流处理结合的统一计算框架
D、Flink在维护一次完整的应用状态时，不能无缝修复错误

关于checkpoin机制的描述，错误的哪一个
A、checkpoin机制是分布式快照机制的核心
B、checkpoin机制不断绘制流应用的快照
C、checkpoin机制可以保证应用在运行过程中出现故障时、应用的所有状态都能从一个检查点恢复
D、checkpoin机制是Flink运行过程中容错的重要手段

管理Kafka集群配置的是哪个组件
A、zookeeper
B、Producer
C、broker
D、cunsumer

alter table tableName set tablproperties(external='false');执行该Hive命令能实现以下哪一个目标
A、移动tableName 数据到外部存储系统
B、修改内部表tableName 为外界所用
C、删除tableName 表的元数据信息
D、修改外部表tableName 为内部表

Hive中trime()函数的功能是
A、字符串截取
B、去除空字符串
C、返回近似值
D、计算绝对值

以下哪一个不是统一元数据管理的优势
A、元数据统一管理、统一访问和使用。
B、数据访问分散授权，数据安全无保障
C、使用实际标准HIVE metastore接口、业务易对接
D、提供可视化元数据管理工具

华为Fusionisight MRS四大功能中一站式平台具有以下哪一特点
A、一站式融合平台、支持数据湖、数仓、BI、AI融合、消除数据孤岛
B、全组件、多集群统一管理
C、开放、先进、可持续产品完全满足信息技术用用创新要求
D、可靠性5个9，7+24小时稳定运行

多选

Structured Streaming可以提供哪几种类型的保证？
A、At least once
B、only once
C、at most once
D、exactly once

关于GES服务的基本概念，以下哪些选项是正确的
A、在GES中，点的属性（Propetly）表示了该顶点的附加信息。采用key/Value结构进行保存
B、”认识/朋友关系”在图中可以用边来表示
C、一个人的姓名、年龄、身份证、爱好等信息可以用Vertex Label来表示
D、GES不存在无向边

利用HBase Java API的Get命令查询时，需要涉及以下哪些步骤？
A、将列族、列、Rowkey全部都转成字节形式。
B、调用Connection实例的getTable获取Table实例，传入参数为表名称
C、table实例的get方法传入get实例获取查询结果result实例，用循环依据表结构解析result实例。
D、Get实例添加列族和列

下面哪几项属于Elasticsearch的Restfull请求方式
A、update
B、post
C、get
D、delete

离线批处理任务通常可以通过以下哪些作业完成
A、MapReduce作业
B、Storm作业
C、Spark作业
D、Hive SQL 作业

以下关于华为云MRS提供的基于天气大数据进行海量分析根据高线分析应用场景的描述中，哪些是正确的
A、可以利用Hive 实现TB/PB级别的数据分析
B、可以通过可视化ETL工具loader，将数据导出到DWS。完成BI分析
C、离线批处理必须依赖Flink组件完成计算
D、可以使用OBS实现低成本存储

以下哪些是常用的数据采集工具
A、Loader
B、Sqoop
C、Kafka
D、flume

数据仓库分层包括以下哪些选项
A、DWD层
B、ODS层
C、ADS层
D、DWS层

关于Spark SQL 和Hive的区别与联系，哪些正确
A、Spark SQL不可以使用Hive的自定义函数
B、Spark SQL 兼容绝大部分Hive语法
C、Spark SQL 依赖Hive的元数据
D、Spark SQL 的执行引擎为Spark Core 。Hive 默认执行引擎为Tez

大数据融合架构具有以下哪些优势
A、流处理以及查询多种计算模型
B、消除数据孤岛，减少冗余
C、实现资源共享，实现管理自动化
D、同一份数据可同时进行批处理

以下哪些选项是传统大数据架构面临的挑战
A、资源无法弹性
B、建设成本高
C、多集群无法运维
D、业务上线速度慢

现代企业数据分析平台向着云化和融合发展的优势有哪些？
A、超敏捷应用
B、资源弹性分配
C、多场景分析
D、交叉融合分析

OutPut可以定义的存储方式包含以下哪些
A、update mode
B、add more
C、complete mode
D、append made

以下哪些选项属于Kafka高校文件存储涉及的特点
A、通过索引文件稀疏存储、可以大幅降低index文件元数据占用空间大小
B、通过index元数据全部映射到memory、可以避免segment file的IO磁盘操作
C、Kafka把topic中一个partition文件分成多个小文件段，通过多个小文件段，就容易定定期清除或删除已经消费完文件，减少磁盘占用
D、通过索引信息，可以快速定位message和确定response的最大大小

以下关于事件时间的正确描述，正确的是
A、时间时间是指时间在其设备上发生的时间
B、基于事件时间的处理往往有一定的滞后性
C、事件时间是时间进入flink之前已经嵌入事件，让filnk可以提取该时间
D、基于事件时间进行处理的流程序，可以保证事件在处理的时候的顺序性

Kafka消息传输保障通常会选用哪种策略
A、only once
B、at most once
C、exactly once
D、at lease once

以下哪些选项是常用的数据结构类型
A、结构化数据
B、非结构化数据
C、超结构化数据
D、无结构化数据

以下哪些选项是Zookeeper在Kafka中的应用
A、CPU资源调配管理
B、索引数据的生成
C、集群管理
D、负载均衡

关于Hbase 的Java api 读取数据，以下描述正确的是哪些项目
A、QualifierFilte用于过滤HBase 表中的列族信息
B、要从表中读取数据，首先需要实例化该表对应的Table实例
C、为了提高查询效率，使用Scan命令时最好指定startRow 和stopRow
D、Hbase filter 主要在Scan和Get过程中进行数据过滤。通过一些过滤条件来实现条件查询。

在HBase中利用get命令查找某一个单元格对应的数据，以下哪些信息是必要的？
A、column qualifiter(列限定符)信息
B、column family (列族)信息
C、dataBlock ID（数据块编号）信息
D、Rowkey（行键）信息

关于HBase缓存机制，以下哪个正确
A、MemStore是写缓存，BlockCache是读缓存
B、HBase会将一次文件中要找的block块缓存到cache中，以便后续同一请求或者相邻数据查找请求，可以直接从内存中获取，避免IO操作
C、HBase提供2中类型的缓存结构MemStore和BlockCache
D、HBase数据先写入Hlog中，并同时写入MemStore，待满足一定条件后将MemStore中数据刷到磁盘

以下哪些是GES图数据库用于存储海量数据的基础组件
A、flink
B、Hbase
C、spark
D、Elasticsearch

关于HBase中scan和get的描述，正确的是
A、scan可以用于扫描全表数据
B、scan命令无法指定行键的范围
C、get命令可以指定查找特定的单元格
D、get命令必须指定行键信息

以下关于spark的描述中，正确的有哪些
A、宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
B、窄依赖跟宽依赖的区别是，是否发生shuffle
C、窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用
D、当一个任务在spark执行时，该任务会被拆分成多个stage，然后分配到不同的节点上进行执行

数据仓库分层的有点包括
A、隔离原始数据
B、减少重复开发量
C、简化复杂问题
D、提高资源协调能力

关于Hive的优点，以下正确的是
A、Hive速度非常快，可以支持毫秒级时延的分析应用
B、理论上Hive依赖硬件程度较低，可适应一般的普通机器
C、Hive支持双metasrore机制，提高容错性
D、Hive支持多种编程语言。包括Java和python都可以对Hive进行使用

华为企业云数据湖的数据源可以是以下哪些选项
A、关系型数据库
B、日志数据库
C、外部数据库
D、传感器（IoT）

华为MRS服务具有以下哪些优势
A、高可用
B、弹性计算
C、多场景融合
D、村算分离

关于为河图构建融合分析能力与传统数仓分系统沟通建模式，正确的是
A、企业传统数仓，缺乏高校统一的融合分析
B、分系统的构建模式，导致数据冗余严重，阻碍企业快速转型
C、随着数据量增长，业务对数据分析灵活要求越来越高
D、华为和土引擎对浪涌式的数据进行整合分析，发挥最大价值

大数据的价值体现在以下哪些方面
A、大数据给思维方式带来了冲击
B、大数据实现了精准营销
C、大数据为政策制定提供科学论据
D、大数据助力智慧城市提供公共服务水平

持续处理模型正确的是
A、低延迟下、会丢失数据
B、可以实现毫秒级延迟
C、可以启动一系列的连续读取、处理和写入结果任务
D、对于便宜范围的记录异步写入日志、以达到连续处理

以下关于微批处理模型的描述、正确的是哪些
A、会有一定的延迟
B、流计算迎请在处理上一批次数据结束后在对新数据进行批量查询
C、在下一个微批处理之前，要将数据的便宜范围保存在日志中
D、当前到达的数据需要在上一次批处理完成，才能下一个批次数据继续处理

哪几项是Structured Streaming在output阶段数据写入方式
A、update mode
B、general mode
C、complete mode
D、append mode

kafka的consumer跟踪消费记录时不需要以下信息
A、producer
B、partition
C、datablock
D、split

哪些可能是键值的返回值类型
A、list
B、set
C、zset
D、string

以下哪些场景适合使用实时检索技术完成部署
A、运营商实时查询用户电话费清单、流量清单
B、公安系统当时布控、车辆轨迹绘制、快速信息汇集
C、银行事后查询交易凭证、追溯交易
D、公安系统基于“人、事、地、物、组织、身份”等点状实体，查询在社会关系网络中的关联关系

实时检索解决方案的项目流程包括了以下哪些选项
A、应用开发
B、应用部署
C、项目环境准备
D、代码工程

关于HBase中的Filter过滤器的描述，正确的是
A、如果表中有单元格的值为英文字符，使用scan 'cx-table stu01',{ifilter=>"ValueFilter(>,'binary:20')"}命令会把这些英文字符也一起匹配输出
B、如果表中有name、age、gender和address四列数据，使用scan 'cx-table-stu01',filter=>"ColumnPrefixFilter('a')"命令会把age和address两列的数据进行输出
C、scan 'cx-table-stu01', {FILTE=>"ValueFilter(=,'binary:20')"}表示搜索所有列值恰好等于20的单元格数据
D、使用scan 'cx-table-stu01',{FILTER=>"ColumnPrefixFilter('name') and Valuefilter(=,'binary:hanmeimei')"}命令时，只要满足两个条件其中一个就可以匹配输出

关于GESRest接口的描述，以下哪些选项时正确的？
A、rest接口通过http协议进行通信，必须等待所有发请求的响应，之后才可以继续发送请求
B、get api 向上层应用提供统一的访问入口，通过高度灵活的rest api 接口，封装gets平台的统一操作
C、rest接口请求分为HEAD、GET、PUT、POST、DELETE
D、GES REST接口对于GES版本没有任何要求

实时检索的公安和金融行业应用场景有哪些特征
A、查询速度快
B、高并发
C、存在海量小文件
D、查询条件简单

离线批处理的数据来源可以时以下哪些选项
A、日志文件
B、OGG日志流
C、数据库
D、批量文件数据

以下关于Sqoop import原理的描述中，哪些选项是正确的
A、Sqoop需要用到Spark或者Flink才能完成数据的import
B、Sqoop在import时，选哟指定Split-by参数。sqoop会根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中
C、sqoop将任务划分到每个map中，在处理数据库中获取的一行一行的值，写入到HDFS中
D、split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域

数据分析平台云华和融合发展有哪些特点
A、超敏捷应用
B、多场景分析
C、资源弹性分配
D、交叉融合分析

下列关于大数据的分析理念的说法中哪些选项时正确的
A、在数据规模上强调相对数据而不是绝对数据
B、在数据基础上倾向于全体数据而不是抽样数据
C、在分析方法上更注重分析而不是因果关系
D、在分析效果上更追究效率而不是绝对精神

某个查询的Hive sql 执行的时间比较长，分析发现该sql在被分解成多个阶段执行，导致执行时间长，如何优化
A、将sql语句逐条执行
B、增加服务器内存，来增加该SQL的执行内存
C、针对业务逻辑，提前进行数据过滤，避免后续JOIN操作太繁琐
D、通过参数hive.exec.parellel开启并行执行，提高查询效率

解决离线批处理任务常用以下哪些组件
A、Hive
B、yarn
C、hdfs
D、spark

flink的sink有哪些类型
A、hive sink
B、kafka sink
C、Elasticsearch sink
D、Redis sink

HBase中包含的典型的filter有
A、keyonofilter
B、singleColumnValueFilter
C、RowFilter
D、FilterList

Hive可以直接访问以下哪些组件
A、HBase
B、hdfs
C、tesorFlow
D、Docker

关于华为云MRS提供的Loader服务，正确的有
A、loader基于开源sqoop研发，做了大量优化和扩展
B、loader底层通过Map Reduce去实现批量数据的导入导出及数据转化工作
C、在MRS大数据平台中loader需要和flink强绑定
D、在华为云MRS中，loader提供定时调度任务，可以周期性执行导入导出作业

以下关于source的描述总，正确的是
A、source有驱动和轮询两种类型
B、http source支持http的post发送数据
C、spooling direetory source采集本地静态文件
D、exec source执行某个命令或者脚本，并将其执行结果的输出作为数据源

哪些不是Hbase的典型应用场景
A、存储气象数据
B、挖掘潜在客户
C、推荐最优套餐
D、统计订单总额

由GES REST接口可以实现以下哪些操作？
A、创建图
B、册除图
C、创建vertex label
D、创建edge label

关于HBase组件的描述，下列哪几项是正确的？
A、是分布式的
B、存储数据是以K—V的形式
C、是面向列的
D、是一种NoSQL数据

下列哪些选项是FLink的高抽象层API？
A、Table API
B、SQL API
C、DataSet API
D、DataStream API

Flink提供的窗口分配器，包含以下哪些项？
A、会话窗口
B、全局窗口
C、滑动窗口
D、滚动窗口

Loader具有对以下哪些数据源的读取能力？
A、Hive
B、RDB
C、HBase
D、HDFS

Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，可以使用以下哪几种Channel类型？
A、File Channel
B、Memory Channel
C、HDFS Channel
D、JDBC Channel

关于GES的RESTful接口，以下描述中正确的有哪些选项？
A、用户可以通过GES的RE密接口查询数据点的信息
B、用户可以通过GES的REST接口创建edge label
C、GES的REST请求分为Select、Put、Create和Delete
D、GES API向上层应用提供统一的访间入口，通过高度灵活的REST API接口，封装GES平台的统一操作

以下关于处理时间的描述，正确的是哪些项？
A、处理时间是指每台机器的系统时间
B、处理时间不需要流和机器之间的协调
C、处理时间能提供最好的性能和最低延迟
D、处理时间不能提供消息事件的时序性保证

Structured Streaming的Sink目前支持以下哪些输出源？
A、HDFS
B、ForeachSirnk
C、Console
D、Kafka

Redis写命令同步的时机，可以设置以下哪些项？
A、appendfsyne everymin
B、appendfsync everysec
C、appendfsync no
D、appendfsync always

所谓大数据技术融合主要指哪些方面？
A、计算融合
B、数据融合
C、批-流融合
D、算力融合

关于Loader特点描述正确的选项是（）。
A、高可靠，Loader Server采用主备双机作业通过MapReduce执行，支持失败重试，作业失败后，不会残留数据。
B、高性能，利用MapReduce并行处理数据。
C、图形化，提供UI图形化配置，监控界面，操作简便。
D、安全认证，Kerberos认证作业权限管理。

某大数据运维人员需要将部分数据导入Hive数据表中，以下哪些做法是可取的？
A、将数据导入到HDFS文件系统中，通过load data命令导入到Hive表中。
B、将数据导入到FTP服务器中，通过创建外表的方式导入到Hive表中。
C、将数据导入到集群服务器上，通过load data local命令导入到Hive表中。
D、将数据导入到本地电脑中，然后使用load data local命令导入到Hive表中。

某政府企业的数据库工程师使用Loader进行数据迁移，那么他可以将以下哪些数据源迁移至Hadoop？
A、自定义数据源
B、MySQL数据库
C、Oracle数据库
D、SFTP Server

以下对HDFS中提供文件读写的类描述正确的是（）。
A、FSDataOutputStream是HDFS API中提供文件写入文件的类。
B、FSDataOutputStream是与DataNode交互的接口类。
C、FSDataOutputStream是HDFS API中提供读取文件的类，通过FileSystem的close方法获取读取数据流。
D、FSDataOutputStream通过FileSystem的create和append方法获取写入数据流。

某大数据业务人员因误操作，导致某条Hive的Insert语句执行了多次，使得数据出现了重复的现象，为了遍免下次再次出现这种问题。以下哪些操作是可取的？
A、添加Hive表的唯一索引，保证数据不重复。
B、改造SQL语句，在插入前添加清空操作如truncate
C、改造SQL语句，添加关键字Overwrite使得数据以覆盖的方式写入。
D、添加权限，使得业务人员只能执行单次插入。

以下哪些算子是窄依赖？
A、filter
B、groupBy
C、union
D、map

某开发小组可以利用ElasticSearch实现下列哪些功能？
A、开发交易系统
B、查询交易凭证
C、查询客户信用记录
D、自动化评估贷款额度

HBase的可视化Web界面可以查询到（）。
A、表的信息
B.Region信息
C、Region起始RowKey
D、以上全不正确

实时检索的解决方案中有哪些组件？
A、HBase
B、Hadoop
C、ElasticSearch
D、Hive

HBase中会触发F1ush操作的有以下哪几项？
A、Region中MemStore的总大小，达到了预设的Flush Size阈值
B、当WALs中文件数量达到阈值时。
C、HBase定期刷新Memstore，默认周期为1小时。
D、MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小。

ZooKeeper在HBase中主要起什么作用？
A、管理元数据
B、存储表结构数据
C、存储用户表数据
D、主备切换

关于Scan命令，下列说法正确的有哪些？（
A、scan可以通过setCaching与setBatch方法提高速度
B、scan可以通过setFilter方法添加过滤器
C、scan读取数据是一次性全部把数据从服务端读取到
D、scan可以通过setStartRow与setEndRow来限定范围

HBase中HMaster主要负责（）。
A、表的增删改查
B、Regionserver负载均衡
C、用户数据读写回
D、Region分布调整

下面哪几项属于ElasticSearch的扩展插件？
A、bigdesk
B、head
C、IKAnalyzer
D、hadoop

Kafka中删除消息的阈值有哪几种？
A、数据产生的时间
B、数据使用的频率
C、硬盘总空间大小
D、分区总日志大小

Structured Streaming中通过什么机制，解决数据的无序和滞后问题？
A、留连接
B、持续查询
C.Wartermark机制
D、事件时间

Flink运行模式有以下哪几项？
A.YARN模式
B、Standalone模式
C、Local模式
D、Spark模式

Flink有哪些状态储存方式？
A、MemoryStateBackend
B、MysqlStateBackend
C、FsStateBackend
D、RocksDBStateBackend

Redis使用场景包含以下哪些特点？
A、低延时
B、高性能
C、丰富数据结构存取
D、支持持久化

Flink能够通过以下哪种方式提供容错机制？
A、事件时间
B、状态快照
C、流重放
D、窗口

Flume中的source工作方式可以分为以下哪几种？
A、中断
B、轮询
C、驱动
D、广播

以下关于Kafka Partition说法正确的有哪几项？
A、每个Partition都是有序且不可变的消息队列。
B、引入Partition机制，保证了Kafka的高吞吐能力。
C、每个Partition在存储层面对应一个log文件。
D、Partition数量决定了每个Consumer group中并发消费者的最大数量

HBase读数据时需要读取哪几部分数据？
A、Hfile
B、Hiog
C.MemStore
D、HDFS

关于GES的Gremlin Java API操作，以下描述正确的有哪些项？
A、可以调用Java API创建Iterator对象，对边和点进行遍历
B、客户端可以和一个或多个Gremlin server实例建立链接，基于Cluster对象创建Client
C、GES无法通过Java API删除一张图
D、Java API仅支持同步提交任务，不支持异步提交任务

关于HBase的基本架构，以下描述中正确的有哪些项？
A、在HBase中，每一个Store对应一个Column Qualifier
B、在HBase中，由HMaster直接管理Region
C、每一次触发Flush都会生成新的HFile
D、HBase允许多台HRegionServer同时工作

HBase存储模型包含以下哪些选项？（
A、数据块编号（Data Block ID）
B、行键（RowKey）
C、时间戳（TimeStamp）
D、列族（Co1umnFamily）

对于行存储和列存储的描述，以下哪些选项是正确的？
A.列存储指的是数据以列为单位存储在底层文件系统中
B、HBase是典型的行存储数据库
C、行存储模式有利于增加／修改整行记录，但对于按列进行查找的操作则效率不高
D、行存储指的是数据按行存储在底层文件系统中。通常，每一行会被分配固定的空间

关于HBase的数据模型，以下哪些选项是正确的？
A、HBase的表是按key排序的，排序方式是针对字节的
B、应用程序是以表的方式HBase存储数据的
C、表是由行和列构成的，所有的列是从属于某一个列族的
D、所有的表都必须要有主键—key

SparkSQL适用于以下哪些场景？
A、结构化数据处理
B、实时数据查询
C、需要处理大体量数据的场景
D、对数据处理的实时性要求不高的场景

某大数据开发人员在创建分区表时，不知道应该如何设定分区字段的字段类型。针对他的困扰，以下建议哪一项是合理的？
A、分区字段使用String字段即可。
B、分区字段的字段类型并不影响表的查询效率。
C.分区字段的字段类型应该优先满足业务需求。
D、分区字段的字段类型必须没有业务性。

数据业务人因误操作，导致删除了部分HDFS的业务数据，为了遍免再次出现，如何从技术角度出发去规避这个问题？
A、平时注重安全信息的普及，多加宣传。
B、开启HDFS的回收站机制，及时恢复数据。
C、对业务人员进行权限划分，避免非法或敏感操作，如删除等。
D、禁止HDFS的删除操作。

以下关于华为云MRS提供的基于天气大数据进行海量数据商线分析应用场景的描述中，哪些选项是正确的？
A、可以利用Hive实现TB／PB级的数据分析
B、可以使用OBS实现低成本存储
C、可以通过可视化ETL工具Loader，将数据导出到DWS，完成BI分析
D、离线批处理必须依赖Flink组件完成计算

Spark中RDD是弹性数据集的原因包括以下哪些选项？数
A、根据调度弹性
B、自动进行内存和磁盘数据存储的切换
C、Task失败自动重试
D、基于Lineage的高效容错

判断

Redis命令区分大小写。

Redis每个数据库对外都是以一个从1开始的递增数字命名。

Redis每个数据库对外都是以一个从0开始的递增数字命名，支持自定义

Structured Streaming中逻辑计划的优化是通过Catalyst优化器完成

Flume的一个Source可以和多个Channel关联。

ElasticSearch的recovery在集群新增或删除节点时发生。

GES既支持分布式部署也支持单机部署。

Spark是基于内存的，处理数据时产生的中间产物（计算结果）是存放在内存中，减少了对磁盘的I／O操作，大大提升了数据的处理速度。

Spark执行效率高的一个关键因素是在处理数据时产生的中间产物（计算结果）存放在内存中，减少了对磁盘的I／O操作。

大数据场景中对于数据的大小而言指的是数据的总量需要大，对于数据的数量要求不高。

大数据技术的解决方案思路是聚焦在单台机器上，思考如何提升单机的性能，寻找更贵更好的服务器。

某公司大数据业务存在多种计算任务，包括使用CPU，GPU等多种异构计算芯片，为了保证资源的合理利用调度，可以依据华为云Stack架构，构建一站式平台，资源统一管理，按需分配。

Flink可以通过保持现有的计算状态以及依赖关系来进行长期的流式数据计算任务。

开启BloonFilter会有一定的磁盘存储空间及内存cache的额外开销。

ElasticSearch是一个基于内存的NoSQL的数据库，每一份文档都会被切分成128MB大小的数据块，通过三副本机制提高数据稳定性。

通过一句话搜索整篇文章，这是在描述ElasticSearch的倒排索引机制。

Hive中的左半开连接（LEFT SEMI JOIN）比通常的内连接（INNER JOIN）要更高效，因为对于左表中一条指定的记录，在右边表中一旦找到匹配的记录，Hive就会立即停止扫描。即遇到右表重复记录，左表会跳过，而INNER JOIN塔则会一直遍历。

Spark执行效率高的一个关键因素是在处理数据时产生的中间产物（计算结果）存放在内存中，减少了对磁盘的I／O操作。

离线分析平台主要进行数据处理和加工，将原始数据加工成明细数据。以及进行离线跑批作业产生结果数据，供上层应用调用。

华为Fusionlnsight支持在数据湖上直接扩展AI分析能力，通过机器学习平台，支撑数据分析师构建机器学习分析模型，并下发到数据湖上运行。

由于大数据本身的特性，一般大数据场景中不合适频繁的读取数据，而适合频繁的修改数据。

华为实时流处理技术架构中，用于数据实时处理的框架是Flink

Redis不支持在服务器端进行集合的交并补运算。

Flume是一个分布式、高可靠和高可用的海量日志采集、聚合与传输的系统，支持在系统中定制各类数据发送方，用于收集数据。

华为云GES图搜索引擎服务可以为知识图谱技术提供数据存储和查询功能。

在进行HDFS元数据持久化时，NameNode可以周期性触发EditLog和Fslmage的合并。

在Hive的SQL语句执行中，因为group by等关键字的使用会导致数据倾斜。因此为了避免数据倾斜，应禁止该类操作执行。

离线批处理对数据处理的时延要求高，处理的数据量较大，占用的计算存储资源较多，通常通过MR作业、Spark作业或者 HQL作业实现。

离线批处理，是指对海量历史数据进处理和分析，生成结果数据，供下一步数据应用使用的过程。

Hive表在创建为内部表后不允许变更为外部表，所以在一开始确定表的存储方式时就需要格外的注意。

Hive中删除外部表时，元数据和数据会一起被删除。

华为Fusioninsight提供基于YARN的资源统一调度能力，再结合华为自研Superior（苏比列尔）调度骼，能够很好的解决在多任务场景的资源共享问题，它支持CPU、GPU统一调度，单集群每秒可运行7500个作业的大吞吐量，可以从容的面对海量分析任务的场景。

数智融合是当前大数据领域最受关注的趋势之一，主要体现在大数据平台的数据分析智能化以及数据治理的智能化。

某公司大数据业务存在早高峰特点，因此可以借助于华为云MRS服务依据用户的预设策略，自动调整计算资源，使节点数自动随业务负载变化而变化，保障业务峰值时集群平稳健康运行，并降低整体使用成本。

Structured Streaming持续处理可以实现室秒级延迟。

实时布控场景中，数据实时采集可以通过警务数据共享交换平台与边界平台，实时获取出行／住宿／通讯／视频数据。

在编写自定义函数时，UDF、UDIF和UDAF继承的类都是一样的。

GES可以借助MapReduce等分布式计算组件，完成海量数据的实时分析。

Flink既可以用作批处理场景，也可以用作流处理场景。

Header用来存放该event下的一些属性信息，通常使用＜Key，Va1ue＞的结构

Kafka最初由Linkedin公司开发，使用Scala语言编写，之后成为Apache项目的一部分。

Hive数据存储模型中分区对应着表所在路径的一个文件。

Loader是实现MRS与关系型数据库、文件系统之间交换数据和文件的数据加载工具。

Redis各节点维扩Key-＞Server的映射关系

实时流处理系统中，当系统处理能力出现瓶颈后，可通过节点的水平扩展提升处理性能—

Structured Streaming中，有边界表的行列数据是可以一直无限增长的。

为了减少磁盘写入的次数，Broker会将消息暂时buffer起来，当消息的个数达到一定阆值时，再flush到磁盘，这样减少了磁盘IO调用的次数

Flink是个批处理和流处理结合的统计算框架

Redis是个高性能key-value内存数据库。

在HBase中，BloonFlilter的数据被存在RDD的元数据中，一旦写入无法更新，因为RDD是不可变的。开启BloomFilter会有一定的存储及内存cache开销

行键是按照字典序存储，因此，设计行键时，要充分利用这个排序特点，将经常一起读取的数据存储到一块。将最近可能会被访问的数据放在一块。

DataNode是HBase的一部分

HBase的Region在split时不需要停止服务

HBase支持存储大表数据，表格规模可达教十亿行、数百万列

在处理HiveSQL出现的数据倾斜间题时，可以尝试着设置参数nive.map.aggr为true，此时生成的查询计划会有两个MRJo b，可实现数据倾斜时负载均衡。:::info set hive.groupby.skewindata=true;才是负载均衡
hive.map.aggr=true，是用来提高HiveQL聚合的执行性能。 :::

通过SparkSession提交SQL语句时，任务会像普通Spark应用一样被提交到集群中分布式运行。

Hive中默认创建的是外部表。

Sqoop是一款开源的工具，主要用于在Hadoop与传统的数据库间进行数据的传递，例如可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

大数据上云是万物互联时代的必然趋势，移动终端构成的物联网只有通过云，才能快速将全渠道数据（新型生产资料）通过大数据和AI技术转化成价值。

为了使得Kafka的吞吐率可以线性提高，物理上把Topic分成一个或多个 :::info Kafka将一组消息抽象归纳为某个Topic，也就是说一个Topic就是消息的一个分类。
Kafka将Topic分成一个或多个Partition,每个Partition在物理上对应一个文件夹，在该文件夹下存储着这个Partition的所有消息 :::

Flume的sink必须作用于个确切的channel

Redis中List是一个有序的字符串列表，列表内部实现是使用双向链表（1inked 1ist）实现的。

Flink核心是一个提供了数据分发以及并行化计算的流数据处理引擎，对无界和有界数据流进行状态计算。

Body用来存放数据，数据结构为字节数组（Byte Array）

在HBase的shell客户端查看＇ns＇这个命名空间下所有数据文件的名称时，需要用到show＿namespace＇ns＇命令。

ElasticSearch缓存主要分主种：RocksDB Cache.PiieDB Cache，StateBackEnd Cache :::info Query Cache、Fielddata Cache、Request Cache。 :::

HBase本身并没有SQL语句的接口，需依赖其他组件，例如Apache Phoenix，将SQL查询编译为一系列HBase扫描。

GES的边都是单向边。

Sqoop进行数据导出时，也会进行数据文件切片，与MapReduce切片类似，可以通过修改参数block块大小进行切片数量优化。

HDFS中-cat命令是用于删除文件浏览文件内容，即查看

在删除表的时候，外部表只删除元数据，不删除实际数据。

在数字化转型以及多样数据、算力、业务敏捷的驱动下，大数据焦点转向云服务方式创新，更加敏捷，成本更优。

开放接口就是面向数据处理提供一个开放的、标准的接口，能够跟各种工具对按，因为大数据生态里有很多成熟的工具和产品，包含数据集成、治理、运营等等，通过标准接口快速对接，打造一个完整的大数据系统。

弹性伸缩可根据用户的预设策略，自动调整计算资源，使节点数自动随业务负载变化而变化，保证业务峰值时集群平稳健康运行，并降低整体使用成本。

主观题

HBase提供2种类型的缓存结构：MemStore和（）
BlockCache

（）是用来对Spark进行任务参数配置的对象。
SparkConf

（）基于开源Sqoop组件的基础之上，华为云MRS提供了服务，通过可视化操作界面对数据的导入导出进行了管理和使用。
Loader

Fusioninsight HD大数据平台全面升级为混合云。（请填写英文缩写）云服务。
MRS

DAYU基于数据湖实现图教据库与图分析算法融合，支撑丰富多样的（请填写中文）应用。
人工智能

关于Flink的任务调度，请选择正确的顺序。（排序：第一步～第四步）
A.用户提交的代码生成 StreasGraph；
B.JobManager根据ExecutionGraph对Job进行调度
C.经过优化生成JobGraph
D.提交给JobManager进行处理，根据JobGraph生成ExecutionGraph
ADBC

F1ume中的JDBC Charnnel使用了内置的derby数据库，对（请填写英文）进行了持久化，提供高可靠性。
event

使用Java API操作Elasticsearch有多种方式，其中＿（请填入英文名）是官方新推的API，属于高级API，基于HTTP Restful请求，可移值性更高。
RestClient

create＇cx＿table＿stu03＇，＇cf3＇，SPLITS ＝＞［＇10000＇，＇20000，＇30000］，在HBase中执行上述命令，所创建的＇cx＿table＿st u03＇表格具有＿（请填写阿拉伯数字）个分区。
4

在HBase中，数据会被优先存入Memstore里，而Memstore将数据保存在（请填写中文）中。
磁盘

对于海量数据的计算任务和存储任务而言，HBase主要是用于其中的()任务。
存储

Spark中Transformation是RDD的算子类型，它的返回值是（请填写英文缩写）。
RDD

Hive是基于＿＿（请填写英文）的数据仓库软件，可以查询和管理PB级别的分布式数据。
Hadoop

云化趋势：主流厂商都转向以（请填写中文）和混合云的方式提供数据分析服务。
公有云

HBase建表时预先设置多个Region，数据会按照（）对应Region分区情况，在集群内做数据的负载均衡。
列族

Hive组件中，删除表时元数据和数据会被一起删除的表格类型是（请填写中文）。
内部表

创建Hive的外部表时，必须指定关键词。
EXTERNAL

大数据指其大小超出典型数据软件的采集、存储、管理和分析等能力的（请填写中文），一般范围是从几个TB到几个PB
数据集

请按顺序配HBase客户端写入数据的正确流程。
A.写入磁盘上形成StoreFile
B.定位RegionServer
C.写入数据到HLog中
D.写入数据到MemStore中
BDCA

Charnnel支持事务，提供较弱的顺序保证，可以连接任何数量的（）和Sink。
Source

华为Fusionlnsight MRS四大能力包括一站式平台、（请填写中文）、易用成本低以及可持续演进。
永远在线

Flume提供从固定目录下采集日志信息到HDFS、（）和Kafka的能力。
HBase

在GES中，顶点间的联系需要用（请填写中文）来表示。
对象

华为云GES服务是一个基于（）和Elasticsearch的分布式图数据库，将数据构建成属性图模型进行存储，提供强大的图查询、分析、遍历能力。
Hbase

华为云部署了（请填写英文缩写）图搜索引擎服务，将数据构建成属性图模型进行存储，提供强大的图查询、分析、遍历能力。
GES

请按步骤将调用HBase的Java API进行scan查询的流程进行排序。
A.针对查询条件设置scan对象的参数值
B.创建一个Scan对象
C.实例化该表对应的Table实例
D.设置缓存大小或起始结束的rowkey
E.解析处理结果
F.提交Scan请求
CBADFE

SparkSession封装了SparkConf和（）对象，方便用户使用Spark的各种API。
SparkContext

Redis中可以使用（）命令设置一个键的生存时间，到时间后Redis会自动删除它。
expire

《请填写英文）命令可以清空当前数据库的数据。
flushdb

Flume的Channel有多种类型，其中（）在机器宕机时可能丢失数据。
Memory Channel

HBase中Scan查询结果的多行数据保存在（）对象中，每行数据以Result对象形式存储。
ResultScanner

Transformation算子的返回值是
Sink

Flink运行过程中容错的重要手段是（请填写英文）机制。
checkpoint

（）是flume数据传输的基本单元。
event

Structured Streaming是构建在（）引擎上的流式数据处理引擎。
Spark SQL

图引擎GES服务中集成了分布式搜素引擎：（请填写全称），通过该引擎提供模糊检素、全文检索等能力。
ElasticSearch

职前通HCIP题库答案

单选

多选

判断

主观题