字节大数据开发暑期实习面经

    作者:KarenOu
    链接:https://www.nowcoder.com/discuss/658525?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    从来没有准备过数据研发的面试,仅仅是工作中有接触过一些大数据处理的工具,是HR那边捞的简历联系的面试。面试下来感觉自己的技术栈有点不匹配,但面试官很好人,一直在引导。
    Timeline:5/12一面,5/20二面,5/23三面,5/24 HR面,当天会通知结果。本来通过了,但HR说我可实习时长不足4个月,最后没发offer。

    一面 (5/12, 1h)

    1. 自我介绍
    2. SQL里select语句执行的顺序
    3. 介绍SQL里的不同join
    4. HiveSQL orderBy和sortBy的区别
    5. 会用linux吗,常用的linux cmd有哪些,追问除了sh还有哪些运行shell脚本的方法
    6. Hive和传统数据库的区别有哪些,为什么Hive修改小量数据会影响很多行数据
    7. 现场笔试,算法题真的是我的短板。。
    • 一题SQL,某天观看视频数最多的前五名用户及其看的unique视频数
      这里开始写的时候用了count(distinct)和group by,被面试官提醒之后才改为用了两次group by做出来。有被问到count(1)的含义。
    • 单链表折叠
      不会。。。
    • 回型打印二维数组
      说出了正确思路,但代码没写出来。。。参见leetcode螺旋矩阵题解

    过了1天很快通知进入二面,约了5/20二面。

    二面 (5/20, 1h)

    1. 自我介绍
    2. 介绍最近做的点击率预估的项目
      为什么用“Jieba”分词,了解它提取关键词的算法吗,有对比结巴分词和其他分词的包吗
    3. 离线和在线数据的存储有什么区别
    4. NoSQL和SQL的区别,适用场景分别是
    5. MongoDB适合存流式数据吗(问了之前工作的公司:为什么数据既要存在hdfs上,还要存在MongoDB)
    6. 了解MySQL的索引吗,HiveSQL为什么没有索引呢
    7. 了解进程和线程吗
    8. App里的log数据是怎么存储和分析的呢
    9. 做题
      两道SQL,行转列,log日志统计
      蛇形合并多个列表

    面完就通知了三面,约了5/23。

    三面 (5/23, 40min)

    1. 面试官介绍部门业务
      给西瓜视频、头条做数据产品建设,偏内容的数据分析,对内产出策略,开发数据产品并落地。举了一个例子:为什么某些新闻的PV/UV高,给创作者提供insight。或者是帮助做拉新活动,将合适的创作者一步步引导成为达人。
    2. 自我介绍
    3. 简历项目深挖
    • 电商销量预测
      有考虑季节性因素吗,比如夏天等
    • Yelp评论情感倾向性分析
      为什么用LSTM,不用bert
    1. 对工作城市的选择有什么倾向
    2. 为什么去香港读大学
    3. 去CMU交换的经历
    4. 上一个公司用的平台,对大数据工具怎么学习的
    5. Spark和HiveSQL的区别
    6. 反问

    HR面(5/24, 20min)

    1. 自我介绍
    2. 挑简历上的一个项目介绍
    • 是否是独立完成的
    • 和业务方对接的时候遇到什么困难,怎么解决
    • 项目有哪里可以优化的点
    1. 平时自己通过哪些途径学习
    2. 最近有学习什么新的知识和技能吗
    3. 为什么想来字节实习
    4. 可实习的时长
    5. 目前有哪些公司的offer,在什么地方,怎么考虑优先级
    6. 对工作城市的选择
    7. 给我介绍了一下通过之后后续的流程