202105 - 20210508 - 《大数据笔记》

网易、阿里大数据面试流程

作者：菜菜子_z
链接：https://www.nowcoder.com/discuss/655357?source_id=discuss_experience_nctrack&channel=-1
来源：牛客网

看了那么多面经，现在来回馈啦。

4月14号开始投递简历，意向岗位是大数据开发，正经进行了面试的两家公司是网易和阿里，网易拿到了offer，阿里今天也收到了意向书，总结一下面试流程。
网易2面技术+hr面
一面：
1.对数仓的理解
2.维度建模的了解
3.雪花模型和星形模型的理解以及优劣对比
4.MR数据处理过程
5.MR的数据倾斜怎么产生以及解决方法
6.一道业务场景题：A与B关联，B中有city字段，但是city里北上广数据量特别大，怎么优化
7.常用的窗函数有哪些（因为我说了rank(),desen_rank(),row_number()，所以又问了我他们之间的区别，建议这种问题千万别给自己挖坑，一定要说特别熟的，最好能说一下平时在什么场景会用）
8.spark的作业提交流程（不是直接这么问的，具体怎么问的忘记了，问题没听懂可以让他们解释一下，我就是没听懂，然后具体问了一下）
9.spark context工作时都做了哪些事
10.宽窄依赖的理解，为什么要分宽窄依赖
11.哪些算子走宽依赖，哪些走窄依赖

二面：
（因为我做的项目，疯狂问kafka,问到头皮发麻）
1.Kafka生产者写数据丢数据怎么处理
2.Kafka和传统消息队列的区别
3.Kafka的吞吐量为什么那么大
4.Kafka的分区挂了怎么办
5.Kafka的工作流程
6.Kafka为什么同一个消费者组的消费者不能消费相同的分区（因为我回答上个问题时提到了，所以就顺着问了）
7.hive的工作机制
8.hive常用的窗函数
9.怎么理解RDD
10.为什么RDD要设计宽窄依赖
11.spark sql数据倾斜
12.算法题：100个文件怎么去重

阿里3面技术+HR面
一面：
1.怎么理解hadoop生态圈
2.MR数据倾斜怎么处理
3.SQL的优化
4.自己设计hashmap，怎么设计
5.MR数据处理流程
6.为什么学大数据
7.最骄傲的事
8.反问问题
还有一些忘记了，第一次面试很紧张，也很突然，自己感觉很不好，但还是苟活了下来

二面：
1.MR执行过程
2.流处理的设计，实时场景
3.left join和right join的使用场景
4.inner join和out join的区别
5.sql优化
6.职业规划
7.反问问题
这一面很快，可能因为耽误了点时间，马上就到午休时间了

三面：
1.实时作业的压测
2.为什么学大数据
3.40分钟编程，在让我编程前我们交流了这道题，面试官很nice的引导了我

HR面：
1.读研期间最大的收获
2.做项目时遇到的最大问题
3.有没有还未解决的问题，想在工作中解决的
4.什么样的工作容易出成果（我说了新的领域）
5.怎么理解新领域
6.举例说明什么产品算新领域
7.如果让我做一个分享会，不限定受众，我会怎么开展，怎么设计流程
8.最大的挫折
9.读研期间对我影响最大的人
10.反问问题