大数据工程师认证
- 1：选择题
- 2：简答题

大数据工程师认证

要求：
受疫情影响，考试形式转换为线上考试。手写答案到纸上（顶部写清楚班级+学号+姓名），拍图片上交作业。
选择题只写答案即可。不提交者没有成绩。
马老师联系方式：15890100305（手机微信同号）

1：选择题

1：以下哪些是Hive适用的场景？（）
A. 实时的在线数据分析
B. 数据挖掘（用户行为分析，兴趣分区，区域展示）
C. 数据汇总（每天/每周用户点击数，点击排行）
D. 非实时分析（日志分析，统计分析）

2：以下关于Hive SQl基本操作描述正确的是？（）
A. 创建外部表使用external关键字，创建普通表需要指定internal关键字
B. 创建外部表必须要指定location信息
C. 加载数据到Hive时源数据必须是HDFS的一个路径
D. 创建表时可以指定列分隔符

3：HBase中的数据以什么形式存储？( )
A. Int
B. Long
C. String
D. Byte[]

4：下面哪些是MapReduce的特点？（）
A. 易于编程
B. 良好的扩展性
C. 实时计算
D. 高容错性

5：下面哪个是MapReduce适合做的？（）
A. 迭代计算
B. 离线计算
C. 实时交互计算
D. 流式计算

6：容量调度器有哪些特点？（）
A. 容量保证
B. 灵活性
C. 多重租赁
D. 动态更新配置文件

7：以下说法正确的有( )。
A 作业运行了一段时间后失败了，不会残留原始文件。
B 脏数据是指不符合转换规则的数据。
C Loader客户端脚本只能提交作业。
D 创建了一个人机账号，就可以操作所有Loader作业。

8：以下说法正确的是( )。
A Loader将作业提交到MR执行后，如果Loader故障，则此作业执行失败。
B Loader将作业提交到MR执行后，如果某个Mapper执行失败，能够自动进行重试。
C Loader作业执行失败，将会残留数据，需用户手动清除。
D Loader将作业执行到MR执行后，在该作业执行完成前，不能再提交其他作业。

9：下面哪些关键词是Kafka的特点( )。
A 高吞吐
B 分布式
C 消息持久化
D 支持消息随机读取

10： Kafka集群在运行期间，直接依赖于下面那些组件( )。
A HDFS
B Zookeeper
C HBase
D Spark

2：简答题

ZooKeeper为什么建议奇数部署？
HDFS的数据块大小为什么一般比磁盘块大？
Spark的特点有哪些？
Spark相对于MR的优势是什么？
Spark的应用场景有哪些？
Flink的四个关键概念分别是什么？
Flume是什么，可以用来干什么？
Flume有哪些关键特性？
Kerberos作为安全模式下的基础组件，哪些服务（组件）都需要与Kerberos进行交互？都分别在服务的什么流程中会涉及到？
通过客户端执行kinit命令认证方式和调用二次开发的接口（例如hadoop提供的login接口）认证，这两种认证方式有何差异？

郑州信息工程学院期末考试

大数据工程师认证

1：选择题

2：简答题