网易、阿里大数据面试流程
作者:菜菜子_z
链接:https://www.nowcoder.com/discuss/655357?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
看了那么多面经,现在来回馈啦。
4月14号开始投递简历,意向岗位是大数据开发,正经进行了面试的两家公司是网易和阿里,网易拿到了offer,阿里今天也收到了意向书,总结一下面试流程。
网易2面技术+hr面
一面:
1.对数仓的理解
2.维度建模的了解
3.雪花模型和星形模型的理解以及优劣对比
4.MR数据处理过程
5.MR的数据倾斜怎么产生以及解决方法
6.一道业务场景题:A与B关联,B中有city字段,但是city里北上广数据量特别大,怎么优化
7.常用的窗函数有哪些(因为我说了rank(),desen_rank(),row_number(),所以又问了我他们之间的区别,建议这种问题千万别给自己挖坑,一定要说特别熟的,最好能说一下平时在什么场景会用)
8.spark的作业提交流程(不是直接这么问的,具体怎么问的忘记了,问题没听懂可以让他们解释一下,我就是没听懂,然后具体问了一下)
9.spark context工作时都做了哪些事
10.宽窄依赖的理解,为什么要分宽窄依赖
11.哪些算子走宽依赖,哪些走窄依赖
二面:
(因为我做的项目,疯狂问kafka,问到头皮发麻)
1.Kafka生产者写数据丢数据怎么处理
2.Kafka和传统消息队列的区别
3.Kafka的吞吐量为什么那么大
4.Kafka的分区挂了怎么办
5.Kafka的工作流程
6.Kafka为什么同一个消费者组的消费者不能消费相同的分区(因为我回答上个问题时提到了,所以就顺着问了)
7.hive的工作机制
8.hive常用的窗函数
9.怎么理解RDD
10.为什么RDD要设计宽窄依赖
11.spark sql数据倾斜
12.算法题:100个文件怎么去重
阿里3面技术+HR面
一面:
1.怎么理解hadoop生态圈
2.MR数据倾斜怎么处理
3.SQL的优化
4.自己设计hashmap,怎么设计
5.MR数据处理流程
6.为什么学大数据
7.最骄傲的事
8.反问问题
还有一些忘记了,第一次面试很紧张,也很突然,自己感觉很不好,但还是苟活了下来
二面:
1.MR执行过程
2.流处理的设计,实时场景
3.left join和right join的使用场景
4.inner join和out join的区别
5.sql优化
6.职业规划
7.反问问题
这一面很快,可能因为耽误了点时间,马上就到午休时间了
三面:
1.实时作业的压测
2.为什么学大数据
3.40分钟编程,在让我编程前我们交流了这道题,面试官很nice的引导了我
HR面:
1.读研期间最大的收获
2.做项目时遇到的最大问题
3.有没有还未解决的问题,想在工作中解决的
4.什么样的工作容易出成果(我说了新的领域)
5.怎么理解新领域
6.举例说明什么产品算新领域
7.如果让我做一个分享会,不限定受众,我会怎么开展,怎么设计流程
8.最大的挫折
9.读研期间对我影响最大的人
10.反问问题