公司面试题 - 公司大数据面试题-未写答案 - 《数联面试指南》

1.*云
- 一面（30分钟）
- 二面（50分钟）
2.*道
3.*创科技
4.**fun
- 现场笔试
- 一面（25分钟）
5.美*
- 一面（45分钟）
- 二面（40分钟）
6.*得信息
7.汽*之家（大数据部–基础平台组）
8.蚂*金服（保险事业群）
9.猫*
- 一面
- 二面
10.海**视
- 一面（电话25分钟）
- 二面（现场30分钟）
11.vi**
12.知*
13.猪八*

1.*云

一面（30分钟）

谈谈你对HDFS的了解
Hadoop2.0做了哪些改动
Spark与MR的区别在哪里
知道除了Spark之外的大数据处理框架嘛
Spark shuffle，说说
StringBuilder与StringBuffer的区别
HashMap与Hashtable的区别
二叉树的数据结构是什么样的
数据库索引的实现原理
jvm垃圾收集器，挑一种讲讲

二面（50分钟）

讲讲你的日志流量分析系统项目
小文件合并，为什么需要合并小文件呢
讲讲NameNode与DataNode
当数据还在跑的时候，我要查这个数据怎么办
存储格式的选择 & 行式存储与列式存储的优劣
为什么选择ORC，不选择parquet
如果我select * 怎么办
如果我要查一段时间区域的，怎么优化
说说数据倾斜，怎么调优的
说说你对Hive的理解
Hive怎么转成MR的
出现OOM，怎么办
shuffle过程中，会将数据写到哪个buffer里去
讲讲executor、core、task这些之间的关系
平时怎么学习spark的
除了大数据，会Spring嘛
说说你还会些啥技能
Spark与Scala的版本选择的是什么
Spark为什么选择1.6.1 不去选择2.x
Spark2.X做了哪些改动 & 知道这些是通过哪里去看嘛
spark-submit --jars
这个jar包放在哪里的
副本放置策略

2.*道

简历上的3个项目依次介绍
Scala中Nil，Option，yield
HDFS的写流程
MapReduce与Spark的区别
MapReduce的适用场景
常用的10个linux命令
做过机器学习相关的嘛
数据倾斜的调优
出现OOM之后，如何进行调优
会写脚本吗

3.*创科技

数组与链表的区别
二叉树
jvm内存模型
写代码：2个数组去重
面试官介绍公司的业务

4.**fun

现场笔试

选择题+编程题+SQL题
选择题主要是一些大数据的基础
SQL题对窗口函数进行了考察

一面（25分钟）

MapReduce shuffle与Spark shuffle的区别
其实就是问：Sort Shuffle与Hash Shuffle的区别
因为MR的shuffle多了排序阶段与合并阶段
换种形式问Spark的shuffle而已
日志告警的项目
a.为什么需要加上Kafka，Flume也可以直接对接Spark Streaming的，为什么需要加上Kafka
b.为什么要将数据从String格式改造成Json格式，String格式的读进来也可以转成DF，然后注册成临时表啊
c.String转为Json是怎么改造的
什么是迭代式计算

5.美*

一面（45分钟）

介绍下你做的项目吧
数据统一管理平台，我挺感兴趣的，你说说吧
我大概知道是怎么回事了，java web这块你参与开发了吗
你刚刚项目提到了元数据，你能说说hive的元数据管理嘛，对它了解嘛
还是hive，你对hive有哪些原理性了解呢
之后说了hive --> mr的过程
你提到了谓词下推，举个sql的例子，说说谓词下推是怎么回事
知道AST、operator tree这些长什么样吗
那你的hive转mr过程是怎么了解的呢？
那么现在有个问题，如果有个用户：去做了个全表扫描，去查数据，即便我们要求了要指定分区去查，但是他都没有这样做；那么，从你刚刚hive转mr过程的阶段中，你觉得应该从哪个阶段开始避免呢？
面试官：我给你整理下，你刚刚说的过程吧：hive ql --> ast ast --> qb qb --> operator tree 你觉得这三个哪个阶段去避免比较好呢
除了谓词下推，还能说说其它的优化嘛？别说数据倾斜的调优
你刚刚提到了可分割的压缩格式，说下哪些压缩格式支持分割呢？
jvm了解不，说下垃圾收集算法
平常用java和scala语言哪个多点
如果我现在要使用map集合，你觉得哪种适合多线程情况下进行访问
如何去线程监控
Spark 出现OOM，你觉得该怎么进行调优呢？不去动jvm的参数
如果大表与小表join，出现问题，你觉得该怎么优化
那如果现在只是单纯的数据量过大了，出现OOM，该怎么办呢？
那我现在如果在shuffle过程中，增加并行度，是否能缓解数据倾斜的情况呢？
你对未来的规划是什么？(五年内)
向面试官询问了，部门的大数据业务、对自己未来发展的建议

二面（40分钟）

ThriftServer的HA如何去实现，能说下实现的思路嘛
能说下Zookeeper的watch机制是如何实现的嘛？
场景题：现在有1个client，2个server，当我动态加入一台机器，或者删除一台机器，或者某台机器宕机了，client该如何去感知到，说下实现思路(不使用Zookeeper)

6.*得信息

简历上的项目介绍，重点
RDD介绍
爬虫、分类算法介绍
JVM介绍

7.汽*之家（大数据部–基础平台组）

实习时间，能实习多久
MapReduce的执行流程
map最多可以有几个，combiner阶段，举2个不能使用combiner的例子
hql转MapReduce的流程说下
Spark Shuffle调优，调哪几个参数
Spark Shuffle有哪几个类
hashshuffle的consolidate机制被移除取代了，为什么？你觉得它有什么缺陷
计算机网络，三次握手，为什么需要三次
在这个过程中，可以携带数据嘛
Synchronized与volatile的区别
二分查找算法的时间复杂度、空间复杂度
说下你的能耗资源统计分析系统项目
你们最终的数据是存哪的？
为什么使用es，而不是使用关系型数据库(MySQL)
重跑的设计，是指定批次重跑嘛，怎么设计的
ResourceManager HA的设计，如何设计？
平台的权限怎么做的？
面试官最后主动介绍了下部门，对我的建议是java基础不行，没做过相关的项目，真实工作中不可能就管一块

8.蚂*金服（保险事业群）

项目中的亮点，说说
小文件合并、整条链路的重跑 设计
技术选型：MapReduce VS Spark
日志格式是怎么样的
项目开发的团队有多少人，规模多大
关于Flume 与 Spark是怎么学习的
xxx专业是你的高考第一志愿吗
除了日志流量分析项目，还有哪些项目
说了Hive的项目，被面试官指太简单
有没有做个Web相关的
有没有关注名人的博客
对大数据领域的看法
有没有其它的兴趣爱好

9.猫*

一面

自我介绍
Hive窗口函数你用过哪些？哪些场景下使用的，有什么功能？
left join、right join、join的区别
rdd的特性
spark怎么划分stage
哪些操作出发job （trasformation action）
spark参数调优
spark数据倾斜调优？如何进行调优？
数据倾斜不用spark处理，可以用hive处理吗？hive中也有一个设置参数加随机数你知道吗？
说下用过哪些linux命令
spark wordcount代码口述
java 常用集合：hashtable、hashmap、concurrenthashmap
spring ioc aop 实现原理
flume主要用来做什么
mysql索引原理
spring bean的生命周期
jvm了解吗 简单说下jvm原理 GC机制
spring DI 机制
kafka 消费者写过吗 offset偏移量怎么维护？
yarn 集群两种模式知道吗？有什么区别？
mr运行流程
mr中的shuffle阶段的优化
现在有两张表 user (用户id)：所有用户 订单表（用户id 订单id 时间） ：今天的所有订单
需要知道今天没有买到票的用户
两种方式 1.not in 效率不行 2.left join
查询订单表同一天购买两个订单的用户
count求和 having count(*)=2(having后面可以加聚合函数)
每个用户买过的第二条订单
rdd里面是什么样的结构
数据结构与算法相关：快排、二叉树遍历 递归与非递归、检查一个链表是否有环 知道几种方法？

二面

自我介绍
项目相关
spark中的数据倾斜
spark提交一个程序怎么划分？https://blog.csdn.net/jediael_lu/article/details/76735217
spark数据倾斜你是怎么处理的
数据解析你使用的什么（spark sql ）
离线项目相关：离线数据处理
spark sql最终生成多少个文件
最终生成的文件是否存在小文件的问题
自己搭建过集群环境吗
hive sql 写的多吗，是写sql 多还是代码多，mr写过吗
kafka topic会有多个partition？为什么要建立partition？
hive的优化
hive两个表join一个大表一个小表 小表满足多大要求才会放入内存
mapjion原理 mapjoin从那个版本开始？
用过spring吗？spring dao层有什么用？用的hibernate还是mybatis？
spring 数据库连接池有哪些类型？用的哪一个？
spring配置多个库支持吗？
linux命令：查看机器负载情况？查看进程占用的端口？看内存？看磁盘？
我有三个线程 要求都达到一种状态之后在继续执行
问我能去他们那边面试吗？或者线下宣讲会

10.海**视

一面（电话25分钟）

数据倾斜的解决，怎么知道哪里倾斜
自定义类的广播
cache机制，rdd和df的cache什么区别
spark动态内存，堆内和堆外
rdd算子，map,mappartitions,foreach，union
宽依赖，窄依赖
spark DAG过程，doOnrecive，eventloop执行过程
stage和task怎么分类
spark调优
概念，executor，worker，job
用没用过spark什么log，没记住
讲讲sparkSQL数据清洗过程

二面（现场30分钟）

问了很多项目相关的
RDD有什么特点？如果RDD链路很长如何避免重新计算
kafka offset了解吗
项目中如何较少网络传输
如何保证存储和索引的一致性
项目中解决过的比较复杂的问题

11.vi**

自我介绍
问项目相关
tcp udp http 和 https
线程 进程 死锁
多线程 锁
分布式锁
HashMap底层
HDFS、MapReduce工作流程
awk和sed命令

12.知*

合并2个有序链表
java三大特性的理解，如何去应用
设计模式
jvm内存分配、垃圾回收算法
java集合框架
Spark shuffle和MapReduce shuffle的区别
Scala的柯里化和隐式转换
函数式编程

13.猪八*

MapReduce的工作流程
RDD的五大特性
项目相关