大数据工程师认证
要求:
受疫情影响,考试形式转换为线上考试。手写答案到纸上(顶部写清楚班级+学号+姓名),拍图片上交作业。
选择题只写答案即可。不提交者没有成绩。
马老师联系方式:15890100305(手机微信同号)
1:选择题
1:以下哪些是Hive适用的场景?( )
A. 实时的在线数据分析
B. 数据挖掘(用户行为分析,兴趣分区,区域展示)
C. 数据汇总(每天/每周用户点击数,点击排行)
D. 非实时分析(日志分析,统计分析)
2:以下关于Hive SQl基本操作描述正确的是?( )
A. 创建外部表使用external关键字,创建普通表需要指定internal关键字
B. 创建外部表必须要指定location信息
C. 加载数据到Hive时源数据必须是HDFS的一个路径
D. 创建表时可以指定列分隔符
3:HBase中的数据以什么形式存储?( )
A. Int
B. Long
C. String
D. Byte[]
4:下面哪些是MapReduce的特点?( )
A. 易于编程
B. 良好的扩展性
C. 实时计算
D. 高容错性
5:下面哪个是MapReduce适合做的?( )
A. 迭代计算
B. 离线计算
C. 实时交互计算
D. 流式计算
6:容量调度器有哪些特点?( )
A. 容量保证
B. 灵活性
C. 多重租赁
D. 动态更新配置文件
7:以下说法正确的有( )。
A 作业运行了一段时间后失败了,不会残留原始文件。
B 脏数据是指不符合转换规则的数据。
C Loader客户端脚本只能提交作业。
D 创建了一个人机账号,就可以操作所有Loader作业。
8:以下说法正确的是( )。
A Loader将作业提交到MR执行后,如果Loader故障,则此作业执行失败。
B Loader将作业提交到MR执行后,如果某个Mapper执行失败,能够自动进行重试。
C Loader作业执行失败,将会残留数据,需用户手动清除。
D Loader将作业执行到MR执行后,在该作业执行完成前,不能再提交其他作业。
9:下面哪些关键词是Kafka的特点( )。
A 高吞吐
B 分布式
C 消息持久化
D 支持消息随机读取
10: Kafka集群在运行期间,直接依赖于下面那些组件( )。
A HDFS
B Zookeeper
C HBase
D Spark
2:简答题
- ZooKeeper为什么建议奇数部署?
- HDFS的数据块大小为什么一般比磁盘块大?
- Spark的特点有哪些?
- Spark相对于MR的优势是什么?
- Spark的应用场景有哪些?
- Flink的四个关键概念分别是什么?
- Flume是什么,可以用来干什么?
- Flume有哪些关键特性?
- Kerberos作为安全模式下的基础组件,哪些服务(组件)都需要与Kerberos进行交互?都分别在服务的什么流程中会涉及到?
- 通过客户端执行kinit命令认证方式和调用二次开发的接口(例如hadoop提供的login接口)认证,这两种认证方式有何差异?
