杭州端点数据开发面经
作者:01201804191557501
链接:https://www.nowcoder.com/discuss/679252?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
杭州端点数据开发面经:
一面(大概40分钟):
感觉面试官更多的会根据你的简历来问你问题。所以先介绍一下我的简历。我的简历上大概写了自己会java、scala编程语言,熟悉大数据的技术栈,比如hive、spark、map reduce、Kafka、flink,然后两个项目,一个电商数据库一个直播推荐。
面试官首先问了java的垃圾回收机制。
介绍一下spark怎么基于内存计算的,这边说了主要了是基于rdd,然后问什么是rdd。Rdd是分布式弹性容错的数据集,又问了rdd的容错。(持久化和checkpoint)介绍DAG有向无环图。
Spark为什么比mapreduce快。
了解过cap原则吗。
数据倾斜问题,怎么解决。
为什么要用hdfs,hdfs是分布式高可靠的文件系统,那么加磁盘,用redis不也能保证,为什么用hdfs。
就着电商项目问了,电商数仓怎么分层的,各个层次之间有什么作用,为什么要分层。
了解维度建模吗。(不咋了解)
Kafka的ack机制,解决了什么问题。
应该还有,想不起来了。
面试体验:面试官很不错,有些问题没回答好,还会讲解,还推荐了一本书,比较轻松。
二面(大概30多分钟):
二面的面试官问的问题比较散乱hive的架构hive中的4个by (order by,sort by……),有什么区别
有hive调优过吗(使用hive解决数据倾斜)
Hive中的数据在哪存放,mysql的在哪存放。
Hadoop中的小文件问题,怎么解决数据倾斜问题。Spark的架构。Spark提交一个任务的具体流程。划分stage是依据什么划分的。Rdd的五个特性。Stage的数量等于什么,等于宽依赖数量+1
Spark中的并行度等于什么,等于rdd的一个分区数。
Kafka集群架构,其中一个节点挂掉怎么选主的。(zookeeper) zookeeper的选主策略了解过吗(没有)
Spark常见的算子介绍一下。(10个以上)
map 和 mapPartition的区别。
你感觉自己项目中最大的亮点是什么。(spark使用高性能序列化类库)
有自己写过hive里的utf函数吗(没有)
面试体验也不错,回答问题的时候面试官会有回馈,不会的说没事换一个。
三面(大概30分钟左右): 首先向我介绍一了一下公司具体是做什么的。
让我介绍一下电商数据仓库项目。分层之后的一个好处,对于开发者有什么好处,对于使用者有什么好处。
你为什么要使你为什么要使用flume进行数据采集。(flume功能强大,自己比较熟悉)
当数据量非常多,hdfs扛不住flume采集的压力怎么办。(使用kafka做一个削峰,自己回答的是hdfs做一个集群,就是在扩大hdfs)
维度建模
进入公司之后你怎么快速适应公司
当发现实习生做的和想象的不太一样怎么办,实习生做的偏基础。(先从基础慢慢来)
你生活中遇到的最大的困难,怎么解决他的。
最近在学什么东西,看什么书。
面试体验:面试体验不错,面试官问的比较深入,更多会问一些理解性的东西,考察你个人的一个理解深度。最后反问阶段也给了一些建议,同时还纠正了回答错误的地方。