作者:蓝荆凌
链接:https://www.nowcoder.com/discuss/251696?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
1、自我介绍
2、谈一谈你对HBase的理解。
3、HBase中如果遇到同样多的列数,多列族少列限定符,和少列族多列限定符,如何设计和选择?
4、HBase中rowkey的设计?
5、HBase的Get和Scan的区别和联系?
6、谈一谈什么是RDD及你对RDD的理解。
7、宽依赖算子举例?
8、MapReduce的Shuffle和Spark的Shuffle异同?谈一谈各自的特点和过程。
9、了解流处理么?
10、SparkSQL你们文件读取的是什么格式?
11、Hive中遇到数据倾斜如何解决?(hive.groupby.skewindata了解么、mapjoin如何实现?)Spark遇到数据倾斜如何解决?
12、Hive中如何调整Mapper和Reducer的数目?
13、groupbyKey、countByKey(统计)造成的数据倾斜和join造成的数据倾斜,分别应该如何解决?
14、reduceByKey和groupByKey有什么区别,Spark在底层对reduceByKey做了哪些优化?
15、hive分区和分桶有何异同?
16、hive窗口函数熟悉么?举一些用过的例子?
17、二叉树了解么?说明一下完全二叉树和满二叉树的区别?
18、如何求一个二叉树的高度?简要说明方法。(答递归),非递归呢?
19、LinkedList和ArrayList的区别和联系?
20、Spark yarn日志看过没有?GC时间过长如何优化代码?
21、你有什么要问我的么?然后让我注重一下基础。