欢聚二面大数据应用面经
作者:每一夜见红
链接:https://www.nowcoder.com/discuss/754099?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
记几个记得的问题
1、HDFS在写入过程中如何保证packet传输的一致性
提了块写完报告NN,数据队列和确认队列,宕机怎么办 但都不是面试官要的 貌似是每个packet传输完如何确认,跟谁报告,怎么报告 要回去翻下权威手册了
2、spark在rdd转换时如何确认数据块的来源
答分RDD由不同分区组成,每个分区对应一个数据块,通过分区索引区分数据块。 但好像不太满意
3、hive使用spark做计算引擎时 sql语句的转换过程 和mr做计算引擎的区别
答的很不理想 前面说了hivesql转换为mr的过程 面试第一次遇到这个问题 一下子就蒙了 八股文的下场
4、基于yarn集群的任务提交过程
源码不拉不拉
java一点没问
面完说组件有些弱 还安慰一句不是说淘汰了 还会横向比较的 感觉凉了