网易、阿里大数据面试流程

    作者:菜菜子_z
    链接:https://www.nowcoder.com/discuss/655357?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    看了那么多面经,现在来回馈啦。

    4月14号开始投递简历,意向岗位是大数据开发,正经进行了面试的两家公司是网易和阿里,网易拿到了offer,阿里今天也收到了意向书,总结一下面试流程。
    网易2面技术+hr面
    一面:
    1.对数仓的理解
    2.维度建模的了解
    3.雪花模型和星形模型的理解以及优劣对比
    4.MR数据处理过程
    5.MR的数据倾斜怎么产生以及解决方法
    6.一道业务场景题:A与B关联,B中有city字段,但是city里北上广数据量特别大,怎么优化
    7.常用的窗函数有哪些(因为我说了rank(),desen_rank(),row_number(),所以又问了我他们之间的区别,建议这种问题千万别给自己挖坑,一定要说特别熟的,最好能说一下平时在什么场景会用)
    8.spark的作业提交流程(不是直接这么问的,具体怎么问的忘记了,问题没听懂可以让他们解释一下,我就是没听懂,然后具体问了一下)
    9.spark context工作时都做了哪些事
    10.宽窄依赖的理解,为什么要分宽窄依赖
    11.哪些算子走宽依赖,哪些走窄依赖

    二面:
    (因为我做的项目,疯狂问kafka,问到头皮发麻)
    1.Kafka生产者写数据丢数据怎么处理
    2.Kafka和传统消息队列的区别
    3.Kafka的吞吐量为什么那么大
    4.Kafka的分区挂了怎么办
    5.Kafka的工作流程
    6.Kafka为什么同一个消费者组的消费者不能消费相同的分区(因为我回答上个问题时提到了,所以就顺着问了)
    7.hive的工作机制
    8.hive常用的窗函数
    9.怎么理解RDD
    10.为什么RDD要设计宽窄依赖
    11.spark sql数据倾斜
    12.算法题:100个文件怎么去重

    阿里3面技术+HR面
    一面:
    1.怎么理解hadoop生态圈
    2.MR数据倾斜怎么处理
    3.SQL的优化
    4.自己设计hashmap,怎么设计
    5.MR数据处理流程
    6.为什么学大数据
    7.最骄傲的事
    8.反问问题
    还有一些忘记了,第一次面试很紧张,也很突然,自己感觉很不好,但还是苟活了下来

    二面:
    1.MR执行过程
    2.流处理的设计,实时场景
    3.left join和right join的使用场景
    4.inner join和out join的区别
    5.sql优化
    6.职业规划
    7.反问问题
    这一面很快,可能因为耽误了点时间,马上就到午休时间了

    三面:
    1.实时作业的压测
    2.为什么学大数据
    3.40分钟编程,在让我编程前我们交流了这道题,面试官很nice的引导了我

    HR面:
    1.读研期间最大的收获
    2.做项目时遇到的最大问题
    3.有没有还未解决的问题,想在工作中解决的
    4.什么样的工作容易出成果(我说了新的领域)
    5.怎么理解新领域
    6.举例说明什么产品算新领域
    7.如果让我做一个分享会,不限定受众,我会怎么开展,怎么设计流程
    8.最大的挫折
    9.读研期间对我影响最大的人
    10.反问问题