单选题 - 《大数据》

哪一个可以作为Kafa的Consumer？
A、Sensor(传感器)
B、Crawler(爬虫)
C、Front End（前端）
D、Data WareHouses（数据仓库）

关于HBase的特性描述错误的是哪一个选项？
A、分布式
B、不支持扩容
C、高性能
D、高可靠

哪一项不是实时检索技术在金融行业的应用特点
A、查询条件复杂
B、时延要求高
C、高并发
D、存在海量图片小文件

哪一项是HBase不适合的应用场景
A、高吞吐率应用场景
B、海量数据（TB、PB）应用场景
C、要求具有完全ACID特性的应用场景
D、半结构化数据应用场景

关于HBase客户端的使用、一下描述错误的是哪一选项
A、使用get命令查询数据时需指定行键信息
B、插入数据需要用put命令
C、无法通过HBase客户端创建命名空间
D、创建表可以指定列族名称

哪一个组件可以将SQL语句转化为HBase的Scan操作
A、Apache HDFS
B、Apache Storm
C、Apache MapReduce
D、Apache Phoenix

关于HBase的说法中，哪个是错误的
A、HBase需要依赖HDFS作为底层的文件存储系统
B、HBase需要依赖Zookeeper进行协同服务
C、HBase是一个NoSql数据库
D、HBase对于大表的读写访问需要分钟及的时延

关于ElasticSearch的说法、错误的是
A、不支持非结构化数据
B、能够水平扩展
C、原型环境和生产环境可无缝切换
D、对Lucene进行了扩展

以下关于Sqoop数据导入原理的描述中、错误的是
A、Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中
B、Sqoop会根据传入的num-mappers来确定划分几个区域
C、num-mappers越大效率越高
D、Sqoop在import时，需要指定saplit-by参数

通过shell哪个命令上传某个文件至HDFS文件系统中。
A、-put
B、-get
C、-upload
D、-cat

哪一项不是企业级大数据平台的特点
A、可平滑拓展
B、可维护性差
C、数据共享
D、资源共享

复杂大数据集群中。资源分配一般分为独占模式和共享模式。一下描述正确的是
A、共享模式简单、按照配额隔离即可
B、独占模式配置是独占的、不用时无法共享只能闲置
C、共享模式仅用于需要特殊资源保障的业务
D、独占哦是资源利用率高、可以充分利用资源，减少闲置。

大数据与传统数据的区别不包括哪一方面
A、处理对象
B、数据规模
C、编程语言
D、数据类型

关于Flink的角色，哪一个是错误的
A、Client是Flink程序提交的客户端，对用户提交的Flink程序进行预处理、并提交到Flink集群中处理
B、TaskMannager是实际负责执行计算的Worker
C、TaskMannager负责从给用户提交的Flink程序配置中获取Joblanage的地址
D、TaskMannager扮演着集群中的管理者Master的角色。它是多个集群的协调者。

Kafka的shell命令中，哪一个参数是设置副本个数？
A、replication-factor
B、broker-list
C、bootstrap-server
D、partitions

关于RDD，说法错误的是哪一项
A、RDD是Spark对基础数据的抽象
B、RDD是一个只读的、可分区的分布式数据集
C、RDD默认存储在磁盘
D、RDD具有血统机制（Lineage）

消费者在消费Kafaka数据的时候需要执行一下哪个选项的信息
A、Theme
B、Object
C、Time
D、Topic

实时处理的步骤中、实时计算的前一步是以下哪一个选项
A、实施落地
B、实时展示
C、实时缓存存储
D、实时采集

HBase中一张表通过Region的Start key为10、20和30进行region分裂。那么行键为222的数据将属于哪一个region
A、[0,10]
B、[10,20]
C、[30,”+inf]
D、[20,30]

HBase元数据metaRegion路由信息保存的位置是
A、Root表
B、HMaster
C、Meta表
D、Zookeeper

关于ElasticSearch性能优化，错误的是
A、索引创建好后依然可以动态调整分片数量
B、分片最大容量不要超过ElasticSearch推荐的最大JVM堆空间32G
C、分片数不超过节点数的3倍。用较少的分片获得更佳的性能
D、副本数建议设置为1.过多的副本需要更多存储空间

在HBase中，实现不同HRegionServer之间的负载均衡由哪一个组件负责管理
A、Hlog
B、Hfilen
C、HMaster
D、MemStore

ElasticSearch以下哪一个选项是正确的
A、ElasticSearch可以支持模糊查询
B、ElasticSearch只在数据量较小的时候才有性能优势
C、ElasticSearch自身不带Restfull API接口
D、ElasticSearch不支持分布式

Hive表与mysql类似存在分区的概念。那么对于Hive的分区，以下描述中正确的是哪一项。
A、Hive的分区数量可以通过参数动态生成
B、Hive的分区针对的是文件，分桶针对的是文件夹
C、Hive的分区字段与MySQL一样必须存在
D、Hive的分区和分桶是一个个概念

以下哪个场景是HDFS适合做的
A、流式数据访问
B、低延迟读取
C、大量小文件存储
D、随机写入

HDFS是基于Google发布的哪一篇论文设计开发而来的？
A、MapReduce
B、SparkCore
C、GFS
D、Bigtable

编写Scala代码时，通过以下哪个算子可以实现数据过滤
A、flatmap
B、collect
C、filter
D、map

Hive与传统数据仓库的区别不包括以下哪一项
A、易用性
B、执行引擎
C、索引
D、面向对象

以下对离线批处理的概念理解错误的时哪一项
A、离线批处理针对的数据量较大
B、离线批处理通常通过MR作业、Spark作业或者HQL作业实现
C、离线批处理占用的内存资源较多
D、离线批处理对数据处理的时延要求不高

以下哪一项不是基于数据湖构建一站式AI开发平台ModelArts的特点？
A、可视化管理：数据准备、模型构建部署、可视化管理
B、在线推理、批处理推理和边缘推理、满足多种业务场景诉求
C、AI全流程开发：高精度、高效率完成开发任务
D、需自行安装下载TensorFlow、PyTorch等主流计算框架

Structured Streaming程序执行过程中，定义流计算过程之后是哪一个步骤？
A、创建输入数据源
B、创建Spark Session对象
C、导入相关依赖模块
D、启动流计算，并计算输出结果

Kafka的特点不包括以下哪个选项
A、分布式
B、消息持久化
C、高吞吐
D、随机读取

某网站想要实时热度排名，最佳技术实现方式是
A、mapReduce的离线计算
B、HDFS的海量存储
C、Redis的排序计算
D、Hive的离线计算

Kafka运行时直接依赖于哪一个组件
A、HBase
B、spark
C、HDFS
D、zookeeper

下列关于ElasticSearch的说法错误的是哪一项
A、可以扩展到上百台服务器、处理PB级别的结构化和非结构化数据
B、分布式文件存储，并将每一个字段都编入索引，使其可以被搜索
C、实时分析的分布式搜索引擎
D、ElasticSearch可以存储和检索PB级的数据，只适用于离线批处理场景

下列哪一项不是ElasticSearch的扩展插件
A、es-hadoop
B、hadoop
C、ElasticSearch-head
D、Logstash

分布式图数据库，以下描述正确的是哪一项
A、数据库与关系型数据库可以灵活转化
B、图数据库将数据切分为多个数据库进行存储，数据库大小固定128MB
C、图数据库采用ER实体关系进行存储
D、图数据库以“图”这种数据结构来存储和查询数据

关于HBase中BloomFilter。描述错误的是哪一个
A、BloomFilter可以背用来快速的判断一条数据在一个大数据集合中是否存在
B、如果BloomFilter判断结果为该条数据不存在，这一结果拥有一定的误判率
C、Hbase的BloomFilter的相关数据背保存在HFile中
D、BloomFilter用来优化一些随机读取的场景。即Get场景

以下有关Hive多表关联的描述正确的是哪一个选项？
A、Hive在进行多表关联时，从右往左进行关联操作
B、Hive最右边的表是大表。且无法通过命令指定哪张表是大表
C、在Hive SQL中建议把最小表写在右边，这样可以提高执行效率
D、一般情况下有多少张表进行Join连接操作。就会启动多少个MapReduce任务

关于Hive SQL建表语句的说法中，以下哪一个选项是正确的。
A、Hive 支持对整张表以及表中每一列添加Commnet
B、建表时必须指定ROW FORMAT为delimited 否则无法识别
C、建表时必须指定HDFS路径
D、建立分区表只需要指定CLUSTERED BY信息即可

以下哪个选项不属于MRS日常运维不影响业务这一特性
A、扩缩容业务无感知
B、修改配置滚动重启
C、滚动升级补丁
D、单集群跨AZ高可用

以下哪一选项不属于华为云MRS中Manager的特点
A、运维难度高
B、故障快速定位
C、管理员可全面掌握集群运行状态
D、一键式部署、升级

Kafka日志数据文件默认保留的最长时间是多少小时
A、48
B、168
C、96
D、24

以下关于云数据描述正确的是哪一个选项？
A、云计算就是大数据
B、大数据与平台融合是发展趋势
C、大数据可以解决所有事情
D、大数据必须基于云平台

Hive数据存储模型中不包括以下哪一结构
A、表
B、块
C、分区
D、桶

HDFS中**-mkdir**命令可以实现以下哪一个选项的功能
A、显示目录
B、显示文件内容
C、创建目录
D、改变文件属性

ElasticSearch数据写入阶段有很多调优方式、下列错误的是哪一个
A、禁用wildcard
B、尽量使用自动生成的id
C、写入前副本数设置为0
D、写入过程中，采取bulk批量写入

以下哪一选项不是批流融合的实时决策系统的优势？
A、维护难度大
B、吞吐量高
C、批流融合计算
D、可靠性高

以下哪个选项不属于智慧城市所需要的技术
A、手工制作
B、AI计算
C、大数据
D、智慧交通

在Kafka集群中，Kafka服务端的角色是下列哪一
A、Producer
B、zookeeper
C、broker
D、Consumer

以下哪一个选项不是自建混合负载、资源统一调度带来的客户价值
A、支持授权用户数量大幅减少
B、资源池隔离、计算任务相互不影响
C、CPU,GPU异构计算调度
D、混合负载，统一资源池调度、提升资源利用率

在大数据业务处理场景中。常常说不适合存储大量的小文件主要是受哪个组件的影响
A、HDFS
B、Hive
C、Yarn
D、MapReduce

Structured Streaming程序执行过程中，创建输入数据源之前是哪一个步骤
A、启动流计算并计算输出结果
B、定义流计算过程
C、创建spark session
D、导入相关依赖模块

以下关于keyby算子的描述，错误的是哪一项
A、逻辑地将一个流拆分成不相交的分区
B、每个分区包含具有相同key的元素
C、在内部以hash的形式实现
D、数据类型转换是keyedStream—> DataStream

下面哪一个不是Kafka的组件
A、Topic
B、Consumer
C、zookeeper
D、Brokers

Redis中相对于RDB持久化存储，以下对AOF持久化描述错误的是？
A、占用较多磁盘的IO开销
B、内存占用过多、文件体积大
C、发生故障时、恢复速度慢
D、AOF持久化使用快照的方式实现的

如果使用Redis统计topN元素可以使用哪些数据类型
A、set
B、list
C、stored set
D、hash

下列哪一个不是structured streaming支持的source数据源
A、Kafka
B、socekt
C、Hive
D、HDFS

哪一个命令可以清空Redis实力下所有数据库的资料
A、Flushdb
B、Dropdb
C、Flushall
D、Dropall

Flink哪种机制可以保证task运行失败时，其状态能够恢复
A、窗口
B、时间时间
C、检查点
D、有状态处理

Structured Streaming中以下哪项计划的执行顺序是正确的
A、物理计划——逻辑计划——优化的逻辑计划
B、逻辑计划——优化的逻辑计划——物理计划
C、逻辑计划——物理计划——优化的逻辑计划
D、优化的逻辑计划——逻辑计划——物理计划

Hbase不支持以下哪些SQL操作
A、Spark SQL
B、Hive SQL
C、mysql
D、phoenix SQL

以下关于HBase中RegionServer的功能描述不正确的是哪一项
A、管理所有的Region、Region可以在RegionServer之间迁移
B、HBase的数据处理和计算单元
C、ReionServer是HBase数据服务进程，负责处理用户数据的读写请求
D、ReionServer一般与HDFS集群的NameNode部署在一起

对ElasticSearch检索流程描述正确的是（）
A、分片节点汇总结果发送给客户端
B、检索节点汇总结果发送给客户端
C、检索节点不需要汇总结果直接把结果发送给客户端
D、分片节点不需要胡总结果直接把发送给客户端

关于GES技术原理，错误的是
A、基于ElasticSearch的索引机制，能够根据索引查询数据
B、基于YARN的资源调度，可以并行执行任务
C、基于Spark的分布式内存计算技术，支持数据快速导入
D、基于HBase的分布式存储机制，能够处理海量数据

PUT http://127.0.0.1:9200/commodity这段代码的作用是什么
A、创建索引
B、删除索引
C、维护索引
D、更新索引

关于Sqoop数据导入原理的描述中。错误的是哪一项？
A、rum-mappers越大效率越高
B、Sqoop在import时，需要指定split-by参数
C、sqoop根据不同的split-by参数值来进行切分，然后将泄愤出来的区域分配到不同的map中
D、sqoop会根据传入的num-mappers来确定划分几个区域

某大数据业务人员对某数据创建Hive表结构，其中的某个时间类型yyyymmdd，那么可以使用以下哪一项作为字段类型
A、varchar
B、string
C、doublue
D、int

Hive中的解释器（complier）、优化器（optimizer）、执行器（executor）组件用于HQL语句从词法分析、语法分析，编译，优化以及查询计划的生成、生成的查询计划存储在（）中，并在随后由（）调用执行
A、HDFS、Tez
B、HBase、YARN
C、内存、MapReduce
D、HDFS、yarn

大数据离线批处理平台的前期技术选型，哪个大数据组件不属于离线批处理业务所涉及到的组件？
A、HDFS
B、Spark
C、Storm
D、Hive

对于离线批处理的概念理解错误的是
A、离线批处理针对的数据量较大
B、离线批处理占用的内存资源消耗多
C、离线批处理对数据处理的时延要求不高
D、离线批处理通常MR作业，Spark作业或者HQL作业实现

某大数据运维人员想通过shell命令上传某个文件至HDFS文件系统中。以下哪个命令能帮助他完成这个操作。
A、-cat
B、-upload
C、-put
D、-get

以下关于公共安全行业专题分析与查询业务场景描述错误的选项是
A、临时交互式查询任务对数据进行精确或者模糊查询
B、使用标准SQL语句进行查询，根据查询结构筛选目标人群，侦办案件
C、数据湖内多个数据源只能单独访问再呈现结果
D、原始数据经过批处理后，结果集写入到指定的文件目录，供交互时查询

某项目小组接到一个大数据实时分析项目，且对时延要求很高，以下哪种大数据计算框架最合适
A、spark
B、Flink
C、HBase
D、MapReduce

适应离线批处理的Hadoop平台，使用实时处理六计算平台等，属于哪种类型的架构？
A、分离架构
B、单一架构
C、融合架构
D、多维架构

关于Elasticsearch缓存机制理解不正确的是
A、缓存主要分三种：Query Cache、Fielddata Cache、Requeset Cache
B、Requeset Cache：shard级别的缓存，是为了缓存”分片级“的本地结果集
C、Fielddata Cache：专门针对分词的字段在查询期间的数据结构的缓存
D、Query Cache：shard级别的缓存，是对一个查询中包含的过滤器执行结果进行缓存。

大数据技术的4V特征不包含以下哪个
A、Virtual
B、Veloclty
C、Variety
D、Volume

关于Flink的描述，错误的是哪一项
A、Flink没有单点故障，提高共吞吐量的延迟能力
B、Flink支持大规模进行，在上千个节点运行时有很好的吞吐量和低延迟
C、Flink是一个批处理和流处理结合的统一计算框架
D、Flink在维护一次完整的应用状态时，不能无缝修复错误

关于checkpoin机制的描述，错误的哪一个
A、checkpoin机制是分布式快照机制的核心
B、checkpoin机制不能能检测绘制流应用的快照
C、checkpoin机制可以保证应用在运行过程中出现故障时、应用的所有状态都能从一个检查点恢复
D、checkpoin机制是Flink运行过程中容错的重要手段

管理Kafka集群配置的是哪个组件
A、zookeeper
B、Producer
C、broker
D、cunsumer

alter table tableName set tablproperties(external='false');执行该Hive命令能实现以下哪一个目标
A、移动tableName 数据到外部存储系统
B、修改内部表tableName 为外界所用
C、删除tableName 表的元数据信息
D、删除外部表tableName 为内部表

Hive中trime()函数的功能是
A、字符串截取
B、去除空字符串
C、返回近似值
D、计算绝对值

以下哪一个不是统一元数据管理的优势
A、元数据统一管理、统一访问和使用。
B、数据访问分散授权，数据安全无保障
C、使用实际标准HIVE metastore接口、业务易对接
D、提供可视化元数据管理工具

华为Fusionisight MRS四大功能中一站式平台具有以下哪一特点
A、一站式融合平台、支持数据湖、数仓、BI、AI融合、消除数据孤岛
B、全组件、多集群统一管理
C、开放、先进、可持续产品完全满足信息技术用用创新要求
D、可靠性5个9，7+24小时稳定运行