面试复盘|字节提前批 大数据开发 一二三面 已oc

    作者:智慧树上智慧果
    链接:https://www.nowcoder.com/discuss/719344?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    杭州字节data部门
    8.5 21:00~22:00 一面
    0 万年不变的自我介绍
    1 项目相关
    介绍一下做过的一个项目,项目里遇到的难点,用到了什么算法,技术上的突破等等
    2 计算机基础
    会使用什么语言(java、python)
    操作系统
    线程和进程的区别
    什么是死锁、为什么会发生死锁、如何预防死锁
    进程调度算法有什么
    计算机网络
    tcp和udp的区别
    经典握手问题
    java相关
    string、stringBuffer、stringBuilder的区别
    java容器有什么、哪些是线程安全的
    如何实现线程安全
    synchronized、lock、volatile的区别(忘记了volatile是啥了)
    机器学习
    什么是过拟合
    如何防止过拟合
    数据库
    了解数据库的什么引擎(myisam、innodb、kylin、doris)
    有什么类型的索引(hash索引、b树、b+树、min_max、bitmap、bloom、稀疏索引)
    innodb用什么索引,为什么innodb使用b+树索引
    hash索引的缺点
    b树和b+树的区别
    大数据
    了解什么大数据的组件(hive、spark、kafka)
    如果现在有个hql,是select count(*) from 表,这个是怎么翻译为MR任务的(就解释了一下计算key的方法,map并行执行任务,reduce的一个过程)
    hive有什么简单的优化方法(谓词下推、小表join大表balabala)
    什么时候会发生数据倾斜
    如何防止数据倾斜(讲了三四种方法)
    shuffle时会对数据进行排序吗(会,按key排)
    写个题:
    最长严格递增子序列的长度
    智力题:
    一个文件有十亿行,要找topK,有什么好办法(就按照MR的思想答的,然后说了一下可以堆排,取topK)
    为什么用堆排、堆排时间复杂度
    闲聊:
    未来的一个职业规划,是否有在数据方向发展的想法
    反问:
    部门的业务、团队主要做数据平台建设还是大数据开发

    8.6 通知一面过,二面约在了七夕。。。

    8.14七夕二面:4:00~5:00
    0 万年不变的自我介绍
    1 写道题热热身
    题目:有一种将字母编码成数字的方式:’a’->1, ‘b->2’, … , ‘z->26’。 现在给一串数字,返回有多少种可能的译码结果。如输入’12’,输出2.
    dfs一顿做,a了八十,然后和面试官说可以dp,dp讲了一下思路,面试官觉得没问题。
    2 全程项目和实习相关的问题
    介绍一下做过的项目,项目用到的技术,项目最终的效果怎么样
    介绍一下LSTM
    LSTM相比RNN有什么改进和优势
    word2vec有几种方式
    cbow是怎么生成词向量的、算法描述一下
    实习主要做什么工作
    应用层数据开发的时候有接触过什么数据库引擎
    数据治理的思路是什么样的,为什么会有数据治理的需求,数据治理主要可以解决什么问题
    反问:
    base有什么可选的地点(杭州、上海)

    8.16上午通知二面过,三面约在8.16晚上,20:00~21:00
    主管面以为会详细问技术,于是临时准备了不少八股,结果面试的题目感觉都非常贴近业务,考察的似乎是业务思想
    面试官先自我介绍,然后介绍了部门和团队的职责
    我也自我介绍
    询问了一下实验室的大致情况,实验室的研究方向
    聊一下自己了解大数据体系的什么组件、知识的来源是什么
    为什么想从事数据开发的岗位(问就是喜欢、热爱,希望长期从事数据开发的工作)
    实习单位数仓的一个架构是怎么样的,从各业务系统拉取的数据是经过什么样的一个pipeline,才最终变成了oltp
    用过字节的产品吗(虽然没有用过,但是感觉说没用过不太好。。。于是说了一下用过抖音,因为面试部门的业务和抖音相关)
    除了抖音还用过什么内容展示类产品(b站、知乎。。)
    内容展示类产品获利的点你认为有什么(广告、导流、带货、会员等衍生服务。。)
    如何去发掘有潜力的创作者(正好前段时间看了一些推荐系统,于是结合推荐策略讲了一些,也不知道对不对。主要提了三点,一是基数人口统计学,如果一个默默无闻的创作者突然有个视频爆火,可能有潜力;二是建立用户画像,有潜力的创作者在行为模式本身特征上可能和爆火的创作者比较相似,三是视频内容、主题等维度上,可能也比较贴合当前火爆的作品)
    抖音和b站在模式上有什么不一样的地方
    抖音电商有了解吗,有在上面买过东西吗(没有,没有。。。)
    第一代电商某宝某东、第二代电商某多多、第三代电商抖音等,在运营模式上有什么不同(主要比较了一些某宝和某多多的策略上的不同,多亏了好早前看过的一些b站视频。。)
    从哪些途径了解到的这些公司的信息和知识
    有考虑在实习单位转正吗
    如果上海有岗位,愿意去上海吗
    反问:抖音什么时候开始做电商的、抖音电商发展怎么样、抖音盈利的来源有什么
    8.17 oc
    8.18 hr面 + 意向
    总结:
    1、字节面试体验很不错,通知的巨快。
    2、技术上大数据半路出家,之前是做nlp的,这次找数据开发的岗位是因为实习在做数开,虽然时间比较短而且学艺不精,但是觉得数开还是比较有意思的,而且相比后端等岗位更想做数开。有大佬也是这个方向的话可以带带弟弟。。。
    3、三面问业务真的是没有丝毫的准备,临时想的一些答案欠考虑,各位同学在面试的时候不妨也可以根据面试的单位也去提前准备一些业务层面的知识,万一问到了呢(没有用过字节的产品真的就硬答
    面试中遇到的问题有些比较细节,也是我没有答出来的,例如:
    1、shuffle流程的细节是什么
    2、mr的shuffle和spark的shuffle有什么区别稍微讲一下