2019 - 20190909 - 《大数据笔记》

1、自我介绍

2、谈一谈你对HBase的理解。

3、HBase中如果遇到同样多的列数，多列族少列限定符，和少列族多列限定符，如何设计和选择？

4、HBase中rowkey的设计？

5、HBase的Get和Scan的区别和联系？

6、谈一谈什么是RDD及你对RDD的理解。

7、宽依赖算子举例？

8、MapReduce的Shuffle和Spark的Shuffle异同？谈一谈各自的特点和过程。

9、了解流处理么？

10、SparkSQL你们文件读取的是什么格式？

11、Hive中遇到数据倾斜如何解决？（hive.groupby.skewindata了解么、mapjoin如何实现？）Spark遇到数据倾斜如何解决？

12、Hive中如何调整Mapper和Reducer的数目？

13、groupbyKey、countByKey（统计）造成的数据倾斜和join造成的数据倾斜，分别应该如何解决？

14、reduceByKey和groupByKey有什么区别，Spark在底层对reduceByKey做了哪些优化？

15、hive分区和分桶有何异同？

16、hive窗口函数熟悉么？举一些用过的例子？

17、二叉树了解么？说明一下完全二叉树和满二叉树的区别？

18、如何求一个二叉树的高度？简要说明方法。（答递归），非递归呢？

19、LinkedList和ArrayList的区别和联系？

20、Spark yarn日志看过没有？GC时间过长如何优化代码？

21、你有什么要问我的么？然后让我注重一下基础。