202107 - 20210706-01 - 《大数据笔记》

杭州端点数据开发面经

作者：01201804191557501
链接：https://www.nowcoder.com/discuss/679252?source_id=discuss_experience_nctrack&channel=-1
来源：牛客网

杭州端点数据开发面经:
一面(大概40分钟):
感觉面试官更多的会根据你的简历来问你问题。所以先介绍一下我的简历。我的简历上大概写了自己会java、scala编程语言，熟悉大数据的技术栈，比如hive、spark、map reduce、Kafka、flink，然后两个项目，一个电商数据库一个直播推荐。
面试官首先问了java的垃圾回收机制。
介绍一下spark怎么基于内存计算的，这边说了主要了是基于rdd，然后问什么是rdd。Rdd是分布式弹性容错的数据集，又问了rdd的容错。（持久化和checkpoint）介绍DAG有向无环图。
Spark为什么比mapreduce快。
了解过cap原则吗。
数据倾斜问题，怎么解决。
为什么要用hdfs，hdfs是分布式高可靠的文件系统，那么加磁盘，用redis不也能保证，为什么用hdfs。
就着电商项目问了，电商数仓怎么分层的，各个层次之间有什么作用，为什么要分层。
了解维度建模吗。（不咋了解）
Kafka的ack机制，解决了什么问题。
应该还有，想不起来了。
面试体验：面试官很不错，有些问题没回答好，还会讲解，还推荐了一本书，比较轻松。
二面(大概30多分钟)：
二面的面试官问的问题比较散乱hive的架构hive中的4个by (order by,sort by……),有什么区别
有hive调优过吗(使用hive解决数据倾斜)
Hive中的数据在哪存放，mysql的在哪存放。
Hadoop中的小文件问题，怎么解决数据倾斜问题。Spark的架构。Spark提交一个任务的具体流程。划分stage是依据什么划分的。Rdd的五个特性。Stage的数量等于什么，等于宽依赖数量+1
Spark中的并行度等于什么，等于rdd的一个分区数。
Kafka集群架构，其中一个节点挂掉怎么选主的。(zookeeper) zookeeper的选主策略了解过吗(没有)
Spark常见的算子介绍一下。(10个以上)
map 和 mapPartition的区别。
你感觉自己项目中最大的亮点是什么。(spark使用高性能序列化类库)
有自己写过hive里的utf函数吗（没有）
面试体验也不错，回答问题的时候面试官会有回馈，不会的说没事换一个。
三面(大概30分钟左右)：首先向我介绍一了一下公司具体是做什么的。
让我介绍一下电商数据仓库项目。分层之后的一个好处，对于开发者有什么好处，对于使用者有什么好处。
你为什么要使你为什么要使用flume进行数据采集。(flume功能强大，自己比较熟悉)
当数据量非常多，hdfs扛不住flume采集的压力怎么办。(使用kafka做一个削峰，自己回答的是hdfs做一个集群，就是在扩大hdfs)
维度建模
进入公司之后你怎么快速适应公司
当发现实习生做的和想象的不太一样怎么办，实习生做的偏基础。（先从基础慢慢来）
你生活中遇到的最大的困难，怎么解决他的。
最近在学什么东西，看什么书。
面试体验：面试体验不错，面试官问的比较深入，更多会问一些理解性的东西，考察你个人的一个理解深度。最后反问阶段也给了一些建议，同时还纠正了回答错误的地方。