字节大数据开发暑期实习面经
作者:KarenOu
链接:https://www.nowcoder.com/discuss/658525?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
从来没有准备过数据研发的面试,仅仅是工作中有接触过一些大数据处理的工具,是HR那边捞的简历联系的面试。面试下来感觉自己的技术栈有点不匹配,但面试官很好人,一直在引导。
Timeline:5/12一面,5/20二面,5/23三面,5/24 HR面,当天会通知结果。本来通过了,但HR说我可实习时长不足4个月,最后没发offer。
一面 (5/12, 1h)
- 自我介绍
- SQL里select语句执行的顺序
- 介绍SQL里的不同join
- HiveSQL orderBy和sortBy的区别
- 会用linux吗,常用的linux cmd有哪些,追问除了sh还有哪些运行shell脚本的方法
- Hive和传统数据库的区别有哪些,为什么Hive修改小量数据会影响很多行数据
- 现场笔试,算法题真的是我的短板。。
- 一题SQL,某天观看视频数最多的前五名用户及其看的unique视频数
这里开始写的时候用了count(distinct)和group by,被面试官提醒之后才改为用了两次group by做出来。有被问到count(1)的含义。 - 单链表折叠
不会。。。 - 回型打印二维数组
说出了正确思路,但代码没写出来。。。参见leetcode螺旋矩阵题解
过了1天很快通知进入二面,约了5/20二面。
二面 (5/20, 1h)
- 自我介绍
- 介绍最近做的点击率预估的项目
为什么用“Jieba”分词,了解它提取关键词的算法吗,有对比结巴分词和其他分词的包吗 - 离线和在线数据的存储有什么区别
- NoSQL和SQL的区别,适用场景分别是
- MongoDB适合存流式数据吗(问了之前工作的公司:为什么数据既要存在hdfs上,还要存在MongoDB)
- 了解MySQL的索引吗,HiveSQL为什么没有索引呢
- 了解进程和线程吗
- App里的log数据是怎么存储和分析的呢
- 做题
两道SQL,行转列,log日志统计
蛇形合并多个列表
面完就通知了三面,约了5/23。
三面 (5/23, 40min)
- 面试官介绍部门业务
给西瓜视频、头条做数据产品建设,偏内容的数据分析,对内产出策略,开发数据产品并落地。举了一个例子:为什么某些新闻的PV/UV高,给创作者提供insight。或者是帮助做拉新活动,将合适的创作者一步步引导成为达人。 - 自我介绍
- 简历项目深挖
- 电商销量预测
有考虑季节性因素吗,比如夏天等 - Yelp评论情感倾向性分析
为什么用LSTM,不用bert
- 对工作城市的选择有什么倾向
- 为什么去香港读大学
- 去CMU交换的经历
- 上一个公司用的平台,对大数据工具怎么学习的
- Spark和HiveSQL的区别
- 反问
HR面(5/24, 20min)
- 自我介绍
- 挑简历上的一个项目介绍
- 是否是独立完成的
- 和业务方对接的时候遇到什么困难,怎么解决
- 项目有哪里可以优化的点
- 平时自己通过哪些途径学习
- 最近有学习什么新的知识和技能吗
- 为什么想来字节实习
- 可实习的时长
- 目前有哪些公司的offer,在什么地方,怎么考虑优先级
- 对工作城市的选择
- 给我介绍了一下通过之后后续的流程