202105 - 20210527-03 - 《大数据笔记》

好未来大数据实习面经

作者：甜酒、冲蛋
链接：https://www.nowcoder.com/discuss/665569?source_id=discuss_experience_nctrack&channel=-1
来源：牛客网

发面经攒人品！！求求了，给孩子一个offer吧！！！！！

5.24 一面一个小时
开始自我介绍
然后先写一道算法题和一道SQL

算法是二叉树的层序遍历
SQL是求最近登录日期

问题：
1.学过哪些大数据技术栈
2.讲一下MR的运行过程
3.Maptask的数量是怎么确定的
4.如果有很多个小文件，会怎么进行分片，maptask任务数

面试官人特别好，一直在跟我说不用紧张，也一直在引导
上午面试，下午打电话说通过，约的二面时间。

5.27 二面 40分钟左右（因为是想起来哪个写哪个，所以题目顺序可能跟实际问的有区别）
1.大数据技术栈
2.在hadoop生态中各个组件的作用
3.hadoop是怎么工作的，三个部分各有什么作用
4.mysql和hivesql 语句有哪些差异（直观的说两点就行）只答出来一点，面试官很耐心的告诉我mysql不支持 insert overwrite这一点
5.有没有用过hive
6.hive 的数据倾斜，说ABC分别有一千万条、一千万条、10万条，进行count操作，会不会产生数据倾斜
这里我一开始理解错了，巴拉巴拉讲了mapjoin什么的，后来面试官解释说是在同一张表中的三个字段各有这么多数据，不涉及到join，该如何解决数据倾斜问题。
7.知道怎么启用mapjoin吗，面试官说问这个是想确认知道hive中有参数可以控制就行
8.String=‘123’ 和 String = new string（123）相等吗，为什么不相等？
9.知道哪些设计模式？
10.讲讲单例，有几种实现方式，具体怎么实现。哪个是线程安全的，哪个线程不安全，怎么解决线程不安全的问题
11.讲讲Spark和hadoop的区别
12.A left join B 如果要对A或者B的字段进行筛选，是写在on后面还是where后面。两者有什么区别
13.为什么会想选择大数据这个方向而不是后端
14. 如果通过了，你预期在公司中能学到什么或者有哪方面的提升
15. 讲一下快排，时间复杂度是多少

ps：面试官特别温和，非常nice ，过程中还闲聊了几句hhh

好未来的面试体验真的非常棒，面试官都特别亲切，会不断的引导你，而且也会耐心的听完你的回答。

许愿offer！！！希望能过