多选题 - 《大数据》

Structured Streaming可以提供哪几种类型的保证？
A、At least once
B、only once
C、at most once
D、exactly once

关于GES服务的基本概念，以下哪些选项是正确的
A、在GES中，点的属性（Propetly）表示了该顶点的附加信息。采用key/Value结构进行保存
B、”认识/朋友关系”在图中可以用边来表示
C、一个人的姓名、年龄、身份证、爱好等信息可以用Vertex Label来表示
D、GES不存在无向边

利用HBase Java API的Get命令查询时，需要涉及以下哪些步骤？
A、将列族、列、Rowkey全部都转成字节形式。
B、调用Connection实例的getTable获取Table实例，传入参数为表名称
C、table实例的get方法传入get实例获取查询结果result实例，用循环依据表结构解析result实例。
D、Get实例添加列族和列

下面哪几项属于Elasticsearch的Restfull请求方式
A、update
B、post
C、get
D、delete

离线批处理任务通常可以通过以下哪些作业完成
A、MapReduce作业
B、Storm作业
C、Spark作业
D、Hive SQL 作业

以下关于华为云MRS提供的基于天气大数据进行海量分析根据高线分析应用场景的描述中，哪些是正确的
A、可以利用Hive 实现TB/PB级别的数据分析
B、可以通过可视化ETL工具loader，将数据导出到DWS。完成BI分析
C、离线批处理必须依赖Flink组件完成计算
D、可以使用OBS实现低成本存储

以下哪些是常用的数据采集工具
A、Loader
B、Sqoop
C、Kafka
D、flume

数据仓库分层包括以下哪些选项
A、DWD层
B、ODS层
C、ADS层
D、DWS层

关于Spark SQL 和Hive的区别与联系，哪些正确
A、Spark SQL不可以使用Hive的自定义函数
B、Spark SQL 兼容绝大部分Hive语法
C、Spark SQL 依赖Hive的元数据
D、Spark SQL 的执行引擎为Spark Core 。Hive 默认执行引擎为Tez

大数据融合架构具有以下哪些优势
A、流处理以及查询多种计算模型
B、消除数据孤岛，减少冗余
C、实现资源共享，实现管理自动化
D、同一份数据可同时进行批处理

以下哪些选项是传统大数据架构面临的挑战
A、资源无法弹性
B、建设成本高
C、多集群无法运维
D、业务上线速度慢

现代企业数据分析平台向着云化和融合发展的优势有哪些？
A、超敏捷应用
B、资源弹性分配
C、多场景分析
D、交叉融合分析

OutPut可以定义的存储方式包含以下哪些
A、update mode
B、add more
C、complete mode
D、append made

以下哪些选项属于Kafka高效文件存储涉及的特点
A、通过索引文件稀疏存储、可以大幅降低index文件元数据占用空间大小
B、通过index元数据全部映射到memory、可以避免segment file的IO磁盘操作
C、Kafka把topic中一个partition文件分成多个小文件段，通过多个小文件段，就容易定定期清除或删除已经消费完文件，减少磁盘占用
D、通过索引信息，可以快速定位message和确定response的最大大小

以下关于事件时间的正确描述，正确的是
A、事件时间是指时间在其设备上发生的时间
B、基于事件时间的处理往往有一定的滞后性
C、事件时间是在事件进入flink之前已经嵌入事件，让filnk可以提取该时间
D、基于事件时间进行处理的流程序，可以保证事件在处理的时候的顺序性

Kafka消息传输保障通常会选用哪种策略
A、only once
B、at most once
C、exactly once
D、at lease once

以下哪些选项是常用的数据结构类型
A、结构化数据
B、非结构化数据
C、超结构化数据
D、无结构化数据

以下哪些选项是Zookeeper在Kafka中的应用
A、CPU资源调配管理
B、索引数据的生成
C、集群管理
D、负载均衡

关于Hbase 的Java api 读取数据，以下描述正确的是哪些项目
A、QualifierFilte用于过滤HBase 表中的列族信息
B、要从表中读取数据，首先需要实例化该表对应的Table实例
C、为了提高查询效率，使用Scan命令时最好指定startRow 和stopRow
D、Hbase filter 主要在Scan和Get过程中进行数据过滤。通过一些过滤条件来实现条件查询。

在HBase中利用get命令查找某一个单元格对应的数据，以下哪些信息时必要的？
A、column qualifiter(列限定符)信息
B、column family (列族)信息
C、dataBlock ID（数据块编号）信息
D、Rowkey（行键）信息

关于HBase缓存机制，以下哪个正确
A、MemStore是写缓存，BlockCache是读缓存
B、HBase会将一次文件中要找的block块缓存到cache中，以便后续同一请求或者相邻数据查找请求，可以直接从内存中获取，避免IO操作
C、HBase提供2中类型的缓存结构MemStore和BlockCache
D、HBase数据先写入Hlog中，并同时写入MemStore，待满足一定条件后将MemStore中数据刷到磁盘

以下哪些是GES图数据库用于存储海量数据的基础组件
A、flink
B、Hbase
C、spark
D、Elasticsearch

关于HBase中scan和get的描述，正确的是
A、scan可以用于扫描全表数据
B、scan命令无法指定行键的范围
C、get命令可以指定查找特定的单元格
D、get命令必须指定行键信息

以下关于spark的描述中，正确的有哪些
A、宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
B、窄依赖跟宽依赖的却别是，是否发生shuffle
C、窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用
D、当一个任务在spark执行时，该任务会被拆分成多个stage，然后分配到不同的节点上进行执行

数据仓库分层的优点包括
A、隔离原始数据
B、减少重复开发量
C、简化复杂问题
D、提高资源协调能力

关于Hive的优点，以下正确的是
A、Hive速度非常快，可以支持毫秒级时延的分析应用
B、理论上Hive依赖硬件程度较低，可适应一般的普通机器
C、Hive支持双metasrore机制，提高容错性
D、Hive支持多种编程语言。包括Java和python都可以对Hive进行使用

华为企业云数据湖的数据源可以是以下哪些选项
A、关系型数据库
B、日志数据库
C、外部数据库
D、传感器（IoT）

华为MRS服务具有以下哪些优势
A、高可用
B、弹性计算
C、多场景融合
D、存算分离

关于为河图构建融合分析能力与传统数仓分系统构建模式，正确的是
A、企业传统数仓，缺乏高效统一的融合分析
B、分系统的构建模式，导致数据冗余严重，阻碍企业快速转型
C、随着数据量增长，业务对数据分析灵活要求越来越高
D、华为河图引擎对浪涌式的数据进行整合分析，发挥最大价值

大数据的价值体现在以下哪些方面
A、大数据给思维方式带来了冲击
B、大数据实现了精准营销
C、大数据为政策制定提供科学论据
D、大数据助力智慧城市提供公共服务水平

持续处理模型正确的是
A、低延迟下、会丢失数据
B、可以实现毫秒级延迟
C、可以启动一系列的连续读取、处理和写入结果任务
D、对于偏移范围的记录异步写入日志、以达到连续处理

以下关于微批处理模型的描述、正确的是哪些
A、会有一定的延迟
B、流计算引擎在处理上一批次数据结束后在对新数据进行批量查询
C、在下一个微批处理之前，要将数据的便宜范围保存在日志中
D、当前到达的数据需要在上一次批处理完成，才能下一个批次数据继续处理

哪几项是Structured Streaming在output阶段数据写入方式
A、update mode
B、general mode
C、complete mode
D、append mode

kafka的consumer跟踪消费记录时不需要以下信息
A、producer
B、partition
C、datablock
D、split

哪些可能是键值的返回值类型
A、list
B、set
C、zset
D、string

以下哪些场景适合使用实时检索技术完成部署
A、运营商实时查询用户电话费清单、流量清单
B、公安系统当时布控、车辆轨迹绘制、快速信息汇集
C、银行事后查询交易凭证、追溯交易
D、公安系统基于“人、事、地、物、组织、身份”等点状实体，查询在社会关系网络中的关联关系

实时检索解决方案的项目流程包括了以下哪些选项
A、应用开发
B、应用部署
C、项目环境准备
D、代码工程

关于HBase中的Filter过滤器的描述，正确的是
A、如果表中有单元格的值为英文字符，使用scan 'cx-table stu01',{ifilter=>"ValueFilter(>,'binary:20')"}命令会把这些英文字符也一起匹配输出
B、如果表中有name、age、gender和address四列数据，使用scan 'cx-table-stu01',filter=>"ColumnPrefixFilter('a')"命令会把age和address两列的数据进行输出
C、scan 'cx-table-stu01', {FILTE=>"ValueFilter(=,'binary:20')"}表示搜索所有列值恰好等于20的单元格数据
D、使用scan 'cx-table-stu01',{FILTER=>"ColumnPrefixFilter('name') and Valuefilter(=,'binary:hanmeimei')"}命令时，只要满足两个条件其中一个就可以匹配输出

关于GESRest接口的描述，以下哪些选项是正确的？
A、rest接口通过http协议进行通信，必须等待所有发请求的响应，之后才可以继续发送请求
B、get api 向上层应用提供统一的访问入口，通过高度灵活的rest api 接口，封装gets平台的统一操作
C、rest接口请求分为HEAD、GET、PUT、POST、DELETE
D、GES REST接口对于GES版本没有任何要求

实时检索的公安和金融行业应用场景有哪些特征
A、查询速度快
B、高并发
C、存在海量小文件
D、查询条件简单

离线批处理的数据来源可以时以下哪些选项
A、日志文件
B、OGG日志流
C、数据库
D、批量文件数据

以下关于Sqoop import原理的描述中，哪些选项是正确的
A、Sqoop需要用到Spark或者Flink才能完成数据的import
B、Sqoop在import时，需要指定Split-by参数。sqoop会根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中
C、sqoop将任务划分到每个map中，在处理数据库中获取的一行一行的值，写入到HDFS中
D、split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域

数据分析平台云华和融合发展有哪些特点
A、超敏捷应用
B、多场景分析
C、资源弹性分配
D、交叉融合分析

下列关于大数据的分析理念的说法中哪些选项时正确的
A、在数据规模上强调相对数据而不是绝对数据
B、在数据基础上倾向于全体数据而不是抽样数据
C、在分析方法上更注重分析而不是因果关系
D、在分析效果上更追究效率而不是绝对精神

某个查询的Hive sql 执行的时间比较长，分析发现该sql在被分解成多个阶段执行，导致执行时间长，如何优化
A、将sql语句逐条执行
B、增加服务器内存，来增加该SQL的执行内存
C、针对业务逻辑，提前进行数据过滤，避免后续JOIN操作太繁琐
D、通过参数hive.exec.parellel开启并行执行，提高查询效率

解决离线批处理任务常用以下哪些组件
A、Hive
B、yarn
C、hdfs
D、spark

flink的sink有哪些类型
A、hive sink
B、kafka sink
C、Elasticsearch sink
D、Redis sink

HBase中包含的典型的filter有
A、keyonofilter
B、singleColumnValueFilter
C、RowFilter
D、FilterList

Hive可以直接访问以下哪些组件
A、HBase
B、hdfs
C、tesorFlow
D、Docker

关于华为云MRS提供的Loader服务，正确的有
A、loader基于开源sqoop研发，做了大量优化和扩展
B、loader底层通过Map Reduce去实现批量数据的导入导出及数据转化工作
C、在MRS大数据平台中loader需要和flink强绑定
D、在华为云MRS中，loader提供定时调度任务，可以周期性执行导入导出作业

以下关于source的描述总，正确的是
A、source有驱动和轮询两种类型
B、http source支持http的post发送数据
C、spooling direetory source采集本地静态文件
D、exec source执行某个命令或者脚本，并将其执行结果的输出作为数据源

那些不是Hbase的典型应用场景
A、存储气象数据
B、挖掘潜在客户
C、推荐最优套餐
D、统计订单总额

由GES REST接口可以实现以下哪些操作？
A、创建图
B、册除图
C、创建vertex label
D、创建edge label

关于HBase组件的描述，下列哪几项是正确的？
A、是分布式的
B、存储数据是以K—V的形式
C、是面向列的
D、是一种NoSQL数据

下列哪些选项是Flink的高抽象层API？
A、Table API
B、SQL API
C、DataSet API
D、DataStream API

F1ink提供的商口分配器，包含以下哪些项？
A、会话窗口
B、全局窗口
C、滑动窗口
D、滚动窗口

Loader具有对以下哪些数据源的读取能力？
A、Hive
B、RDB
C、HBase
D、HDFS

Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，可以使用以下哪几种Charnel类型？
A、File Channel
B、Memory Channe1
C、HDFS Channe
D、JDBC Channel

关于GES的RESTful接口，以下描述中正确的有哪些选项？
A、用户可以通过GES的RE密接口查询数据点的信息
B、用户可以通过GES的REST接口创建edge label
C、GES的REST请求分为Select.Put.Create和Delete
D、GES API向上层应用提供统一的访问入口，通过高度灵活的REST API接口，封装GES平台的统一操作

以下关于处理时间的描述，正确的是哪些项？
A、处理时间是指每台机器的系统时间
B、处理时间不需要流和机器之间的协调
C、处理时间能提供最好的性能和最低延迟
D、处理时间不能提供消息事件的时序性保证

Redis写命令同步的时机，可以设置以下哪些项？
A、appendfsyne everymin
B、appendfsync everysec
C、appendfsync no
D、appendfsync always

Structured Streaming的Sink目前支持以下哪些输出源？
A、HDFS
B、ForeachSirnk
C、Console
D、Kafka

所谓大数据技术融合主要指哪些方面？
A、计算融合
B、数据融合
C、批-流融合
D、算力融合

关于Loader特点描述正确的选项是（）。
A、高可靠，Loader Server采用主备双机作业通过MapReduce执行，支持失败重试，作业失败后，不会残留数据。
B、高性能，利用MapReduce并行处理数据。
C、图形化，提供UI图形化配置，监控界面，操作简便。
D、安全认证，Kerberos认证作业权限管理。

某大数据运维人员需要将部分数据导入Hive数据表中，以下哪些做法是可取的？
A、会将数据导入到HDFS文件系统中，通过load data命令导入到Hive表中。
B、将数据导入到FTP服务器中，通过创建外表的方式导入到Hive表中。
C、将数据导入到集群服务器上，通过load data local命令导入到Hive表中。
D、将数据导入到本地电脑中，然后使用load data local命令导入到Hive表中。

某政府企业的数据库工程师使用Loader进行数据迁移，那么他可以将以下哪些数据源迁移至Hadoop？
A、自定义数据源
B、MySQL数据库
C、Oracle数据库
D、SFTP Server

以下对HDFS中提供文件读写的类描述正确的是（）。
A、FSDataOutputStream是HDFS API中提供文件写入文件的类。
B、FSDataOutputStream是与DataNode交互的接口类。
C、FSDataOutputStream是HDFS API中提供读取文件的类，通过FileSystem的close方法获取读取数据流。
D、FSDataOutputStream通过FileSystem的create和append方法获取写入数据流。

某大数据业务人员因误操作，导致某条Hive的Insert语句执行了多次，使得数据出现了重复的现象，为了遍免下次再次出现这种问题。以下哪些操作是可取的？
A、添加Hive表的唯一索引，保证数据不重复。
B、改造SQL语句，在插入前添加清空操作如truncate
C、改造SQL语句，添加关键字Overwrite使得数据以覆盖的方式写入。
D、添加权限，使得业务人员只能执行单次插入。

以下哪些算子是窄依赖？
A、filter
B、groupBy
C、union
D、map

某开发小组可以利用ElasticSearch实现下列哪些功能？
A、开发交易系统
B、查询交易凭证
C、查询客户信用记录
D、自动化评估贷款额度

HBase的可视化Web界面可以查询到（）。
A、表的信息
B.Region信息
C、Region起始RowKey
D、以上全不正确

实时检索的解决方案中有哪些组件？
A、HBase
B、Hadoop
C、ElasticSearch
D、Hive

HBase中会触发Flush操作的有以下哪几项？
A、Region中MemStore的总大小，达到了预设的Flush Size阈值
B、当WALs中文件数量达到阈值时。
C、HBase定期刷新Memstore，默认周期为1小时。
D、MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小。

ZooKeeper在HBase中主要起什么作用？
A、管理元数据
B、存储表结构数据
C、存储用户表数据
D、主备切换

关于Scan命令，下列说法正确的有哪些？（
A、scan可以通过setCaching与setBatch方法提高速度
B、scan可以通过setFilter方法添加过滤器
C、scan读取数据是一次性全部把数据从服务端读取到
D、scan可以通过setStartRow与setEndRow来限定范围

HBase中HMaster主要负责（）。
A、表的增删改查
B、Regionserver负载均衡
C、用户数据读写回
D、Region分布调整

下面哪几项属于ElasticSearch的扩展插件？
A、bigdesk
B、head
C、IKAnalyzer
D、hadoop

Kafka中删除消息的阈值有哪几种？（
A、数据产生的时间
B、数据使用的频率
C、硬盘总空间大小
D、分区总日志大小

Structured Streaming中通过什么机制，解决数据的无序和滞后问题？
A、留连接
B、持续查询
C.Wartermark机制
D、事件时间

Flink运行模式有以下哪几项？
A.YARN模式
B、Standalone模式
C、Local模式
D、Spark模式

Flink有哪些状态储存方式？
A.MemoryStateBackend
B、MysqlStateBackend
C、FsStateBackend
D、RocksDBStateBackend

Redis使用场景包含以下哪些特点？
A、低延时
B、高性能
C、丰富数据结构存取
D、支持持久化

Flink能够通过以下哪种方式提供容错机制？
A、事件时间
B、状态快照
C、流重放
D、窗口

Flume中的source工作方式可以分为以下哪几种？
A、中断
B、轮询
C、驱动
D、广播

以下关于Kafka Partition说法正确的有哪几项？
A、每个Partition都是有序且不可变的消息队列。
B、引入Partition机制，保证了Kafka的高吞吐能力。
C、每个Partition在存储层面对应一个log文件。
D、Partition数量决定了每个Consumer group中并发消费者的最大数量

HBase读数据时需要读取哪几部分数据？
A、Hfile
B、Hiog
C.MemStore
D、HDFS

关于GES的Gremlin Java API操作，以下描述正确的有哪些项？
A、可以调用Java API创建Iterator对象，对边和点进行遍历
B.客户端可以和一个或多个Gremlin server实例建立链接，基于Cluster对象创建Client
C、GES无法通过Java API删除一张图
D、Java API仅支持同步提交任务，不支持异步提交任务

关于HBase的基本架构，以下描述中正确的有哪些项？
A.在HBase中，每一个Store对应一个Column Qualifier
B、在HBase中，由HMaster直接管理Region
C、每一次触发Flush都会生成新的HFile
D.HBase允许多台HRegionServer同时工作

HBase存储模型包含以下哪些选项？（
A、数据块编号（Data Block ID）
B、行键（RowKey）
C、时间戳（TimeStamp）
D、列族（Co1umnFamily）

对于行存储和列存储的描述，以下哪些选项是正确的？
A.列存储指的是数据以列为单位存储在底层文件系统中
B、HBase是典型的行存储数据库
C、行存储模式有利于增加／修改整行记录，但对于按列进行查找的操作则效率不高
D、行存储指的是数据按行存储在底层文件系统中。通常，每一行会被分配固定的空间

关于HBase的数据模型，以下哪些选项是正确的？
A、HBase的表是按key排序的，排序方式是针对字节的
B、应用程序是以表的方式HBase存储数据的
C.表是由行和列构成的，所有的列是从属于某一个列族的
D、所有的表都必须要有主键—key

SparkSQL适用于以下哪些场景？
A.结构化数据处理
B、实时数据查询
C、需要处理大体量数据的场景
D、对数据处理的实时性要求不高的场景

某大数据开发人员在创建分区表时，不知道应该如何设定分区字段的字段类型。针对他的困扰，以下建议哪一项是合理的？
A、分区字段使用String字段即可。
B、分区字段的字段类型并不影响表的查询效率。
C.分区字段的字段类型应该优先满足业务需求。
D、分区字段的字段类型必须没有业务性。

数据业务人因误操作，导致删除了部分HDFS的业务数据，为了遍免再次出现，如何从技术角度出发去规避这个问题？
A、平时注重安全信息的普及，多加宣传。
B、开启HDFS的回收站机制，及时恢复数据。
C、对业务人员进行权限划分，避免非法或敏感操作，如删除等。
D、禁止HDFS的删除操作。

以下关于华为云MRS提供的基于天气大数据进行海量数据离线分析应用场景的描述中，哪些选项是正确的？
A、可以利用Hive实现TB／PB级的数据分析
B、可以使用OBS实现低成本存储
C、可以通过可视化ETL工具Loader，将数据导出到DWS，完成BI分析
D、离线批处理必须依赖Flink组件完成计算

Spark中RDD是弹性数据集的原因包括以下哪些选项？
A、根据调度弹性
B、自动进行内存和磁盘数据存储的切换
C.Task失败自动重试
D、基于Lineage的高效容错