作者:蓝荆凌
    链接:https://www.nowcoder.com/discuss/251696?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    1、自我介绍

    2、谈一谈你对HBase的理解。

    3、HBase中如果遇到同样多的列数,多列族少列限定符,和少列族多列限定符,如何设计和选择?

    4、HBase中rowkey的设计?

    5、HBase的Get和Scan的区别和联系?

    6、谈一谈什么是RDD及你对RDD的理解。

    7、宽依赖算子举例?

    8、MapReduce的Shuffle和Spark的Shuffle异同?谈一谈各自的特点和过程。

    9、了解流处理么?

    10、SparkSQL你们文件读取的是什么格式?

    11、Hive中遇到数据倾斜如何解决?(hive.groupby.skewindata了解么、mapjoin如何实现?)Spark遇到数据倾斜如何解决?

    12、Hive中如何调整Mapper和Reducer的数目?

    13、groupbyKey、countByKey(统计)造成的数据倾斜和join造成的数据倾斜,分别应该如何解决?

    14、reduceByKey和groupByKey有什么区别,Spark在底层对reduceByKey做了哪些优化?

    15、hive分区和分桶有何异同?

    16、hive窗口函数熟悉么?举一些用过的例子?

    17、二叉树了解么?说明一下完全二叉树和满二叉树的区别?

    18、如何求一个二叉树的高度?简要说明方法。(答递归),非递归呢?

    19、LinkedList和ArrayList的区别和联系?

    20、Spark yarn日志看过没有?GC时间过长如何优化代码?

    21、你有什么要问我的么?然后让我注重一下基础。