好未来大数据实习面经

    作者:甜酒、冲蛋
    链接:https://www.nowcoder.com/discuss/665569?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    发面经攒人品!!求求了,给孩子一个offer吧!!!!!

    5.24 一面 一个小时
    开始自我介绍
    然后先写一道算法题和一道SQL

    算法是二叉树的层序遍历
    SQL是求最近登录日期

    问题:
    1.学过哪些大数据技术栈
    2.讲一下MR的运行过程
    3.Maptask的数量是怎么确定的
    4.如果有很多个小文件,会怎么进行分片,maptask任务数

    面试官人特别好,一直在跟我说不用紧张,也一直在引导
    上午面试,下午打电话说通过,约的二面时间。

    5.27 二面 40分钟左右 (因为是想起来哪个写哪个,所以题目顺序可能跟实际问的有区别)
    1.大数据技术栈
    2.在hadoop生态中各个组件的作用
    3.hadoop是怎么工作的,三个部分各有什么作用
    4.mysql和hivesql 语句有哪些差异(直观的说两点就行)只答出来一点,面试官很耐心的告诉我mysql不支持 insert overwrite这一点
    5.有没有用过hive
    6.hive 的数据倾斜,说ABC分别有一千万条、一千万条、10万条,进行count操作,会不会产生数据倾斜
    这里我一开始理解错了,巴拉巴拉讲了mapjoin什么的,后来面试官解释说是在同一张表中的三个字段各有这么多数据,不涉及到join,该如何解决数据倾斜问题。
    7.知道怎么启用mapjoin吗,面试官说问这个是想确认知道hive中有参数可以控制就行
    8.String=‘123’ 和 String = new string(123)相等吗,为什么不相等?
    9.知道哪些设计模式?
    10.讲讲单例,有几种实现方式,具体怎么实现。哪个是线程安全的,哪个线程不安全,怎么解决线程不安全的问题
    11.讲讲Spark和hadoop的区别
    12.A left join B 如果要对A或者B的字段进行筛选,是写在on后面还是where后面。两者有什么区别
    13.为什么会想选择大数据这个方向而不是后端
    14. 如果通过了,你预期在公司中能学到什么或者有哪方面的提升
    15. 讲一下快排,时间复杂度是多少

    ps:面试官特别温和,非常nice ,过程中还闲聊了几句hhh

    好未来的面试体验真的非常棒,面试官都特别亲切,会不断的引导你,而且也会耐心的听完你的回答。

    许愿offer!!!希望能过