单选题

下列哪一个不是structured streaming支持的source数据源
A、Kafka
B、socekt
C、Hive
D、HDFS

PUT http://127.0.0.1:9200/commodity这段代码的作用是什么
A、创建索引
B、删除索引
C、维护索引
D、更新索引

关于Hive SQL建表语句的说法中，以下哪一个选项是正确的。
A、Hive 支持对整张表以及表中每一列添加Commnet
B、建表时必须指定ROW FORMAT为delimited 否则无法识别
C、建表时必须指定HDFS路径
D、建立分区表只需要指定CLUSTERED BY信息即可

对ElasticSearch检索流程描述正确的是（）
A、分片节点汇总结果发送给客户端
B、检索节点汇总结果发送给客户端
C、检索节点不需要汇总结果直接把结果发送给客户端
D、分片节点不需要汇总结果直接把发送给客户端

多选题

Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，可以使用以下哪几种Charnel类型？
A、File Channel
B、Memory Channe1
C、HDFS Channe
D、JDBC Channel

由GES REST接口可以实现以下哪些操作？
A、创建图
B、册除图
C、创建vertex label
D、创建edge label

以下关于微批处理模型的描述、正确的是哪些
A、会有一定的延迟
B、流计算引擎在处理上一批次数据结束后在对新数据进行批量查询
C、在下一个微批处理之前，要将数据的偏移范围保存在日志中
D、当前到达的数据需要在上一次批处理完成，才能下一个批次数据继续处理

kafka的consumer跟踪消费记录时不需要以下信息
A、producer
B、partition
C、datablock
D、split

关于GES的RESTful接口，以下描述中正确的有哪些选项？
A、用户可以通过GES的REST接口查询数据点的信息
B、用户可以通过GES的REST接口创建edge label
C、GES的REST请求分为Select、Put、Create和Delete
D、GES API向上层应用提供统一的访访问入口，通过高度灵活的REST API接口，封装GES平台的统一操作

以下关于处理时间的描述，正确的是哪些项？
A、处理时间是指每台机器的系统时间
B、处理时间不需要和机器之间的协调
C、处理时间能提供最好的性能和最低延迟
D、处理时间不能提供消息事件的时序性保证

Redis写命令同步的时机，可以设置以下哪些项？
A、appendfsyne everymin
B、appendfsync everysec
C、appendfsync no
D、appendfsync always

以下哪些算子是窄依赖？
A、filter
B、groupBy
C、union
D、map

实时检索的解决方案中有哪些组件？
A、HBase
B、Hadoop
C、ElasticSearch
D、Hive

Kafka中删除消息的阈值有哪几种？（
A、数据产生的时间
B、数据使用的频率
C、硬盘总空间大小
D、分区总日志大小

Structured Streaming中通过什么机制，解决数据的无序和滞后问题？
A、留连接
B、持续查询
C.Wartermark机制
D、事件时间

Flink运行模式有以下哪几项？
A.YARN模式
B、Standalone模式
C、Local模式
D、Spark模式

Flink有哪些状态储存方式？
A.MemoryStateBackend
B、MysqlStateBackend
C、FsStateBackend
D、RocksDBStateBackend

Flink能够通过以下哪种方式提供容错机制？
A、事件时间
B、状态快照
C、流重放
D、窗口

以下关于Kafka Partition说法正确的有哪几项？
A、每个Partition都是有序且不可变的消息队列。
B、引入Partition机制，保证了Kafka的高吞吐能力。
C、每个Partition在存储层面对应一个log文件。
D、Partition数量决定了每个Consumer group中并发消费者的最大数量

关于GES的Gremlin Java API操作，以下描述正确的有哪些项？
A、可以调用Java API创建Iterator对象，对边和点进行遍历
B.客户端可以和一个或多个Gremlin server实例建立链接，基于Cluster对象创建Client
C、GES无法通过Java API删除一张图
D、Java API仅支持同步提交任务，不支持异步提交任务

关于HBase的基本架构，以下描述中正确的有哪些项？
A.在HBase中，每一个Store对应一个Column Qualifier
B、在HBase中，由HMaster直接管理Region
C、每一次触发Flush都会生成新的HFile
D.HBase允许多台HRegionServer同时工作

关于HBase的数据模型，以下哪些选项是正确的？
A、HBase的表是按key排序的，排序方式是针对字节的
B、应用程序是以表的方式HBase存储数据的
C.表是由行和列构成的，所有的列是从属于某一个列族的
D、所有的表都必须要有主键—key

SparkSQL适用于以下哪些场景？
A.结构化数据处理
B、实时数据查询
C、需要处理大体量数据的场景
D、对数据处理的实时性要求不高的场景

以下关于华为云MRS提供的基于天气大数据进行海量数据商线分析应用场景的描述中，哪些选项是正确的？
A、可以利用Hive实现TB／PB级的数据分析
B、可以使用OBS实现低成本存储
C、可以通过可视化ETL工具Loader，将数据导出到DWS，完成BI分析
D、离线批处理必须依赖Flink组件完成计算

Spark中RDD是弹性数据集的原因包括以下哪些选项？
A、根据调度弹性
B、自动进行内存和磁盘数据存储的切换
C、Task失败自动重试
D、基于Lineage的高效容错

HBase中HMaster主要负责（）。
A、表的增删改查
B、Regionserver负载均衡
C、用户数据读写回
D、Region分布调整

下面哪几项属于ElasticSearch的扩展插件？
A、bigdesk
B、head
C、IKAnalyzer
D、hadoop

HBase读数据时需要读取哪几部分数据？
A、Hfile
B、Hlog
C.MemStore
D、HDFS

某大数据开发人员在创建分区表时，不知道应该如何设定分区字段的字段类型。针对他的困扰，以下建议哪一项是合理的？
A、分区字段使用String字段即可。
B、分区字段的字段类型并不影响表的查询效率。
C.分区字段的字段类型应该优先满足业务需求。
D、分区字段的字段类型必须没有业务性。

判断题

GES可以借助MapReduce等分布式计算组件，完成海量数据的实时分析。

ElasticSearch是一个基于内存的NoSQL的数据库，每一份文档都会被切分成128MB大小的数据块，通过三副本机制提高数据稳定性。

HBase的Region在split时不需要停止服务

HBase本身并没有SQL语句的接口，需依赖其他组件，例如Apache Phoenix，将SQL查询编译为一系列HBase扫描。

主观题

Flume提供从固定目录下采集日志信息到HDFS、（）和Kafka的能力。HBase

请按步骤将调用HBase的Java API进行scan查询的流程进行排序。
A.针对查询条件设置scan对象的参数值
B.创建一个Scan对象
C.实例化该表对应的Table实例
D.设置缓存大小或起始结束的rowkey
E.解析处理结果
F.提交Scan请求
CBADFE

Redis中可以使用（）命令设置一个键的生存时间，到时间后Redis会自动删除它。expire

Flume的Channel有多种类型，其中（）在机器宕机时可能丢失数据。Memory Channel

HBase中Scan查询结果的多行数据保存在（）对象中，每行数据以Result对象形式存储。ResultScanner

Transformation算子的返回值是 Sink

Flink运行过程中容错的重要手段是（请填写英文）机制。checkpoint

（）是flume数据传输的基本单元。event

Structured Streaming是构建在（）引擎上的流式数据处理引擎。Spark SQL

图引擎GES服务中集成了分布式搜素引擎：（请填写全称），通过该引擎提供模糊检素、全文检索等能力。ElasticSearch

错题集

单选题

多选题

判断题

主观题