每日互动(个推)

一面
讲项目,一共问了3个
Flink水印
Flink CEP
Flink内存管理
Spark AggregateByKey原理
Sleep、wait区别

分布式锁
JVM GC算法
多态

二面
讲项目,一共问了3个
ClickHouse部署结构
接口协议 TCP/HTTP 端口号是多少
分布式表的分配策略
MergeTree系列原理
ClickHouse的压缩
底层存储原理
使用过程中遇到的问题
做了哪些优化
Git变基
服务响应慢怎么优化
Spark Checkpoint与Cache

三面
讲项目,一共问了3个
数据量
集群大小
Flink Slot怎么分配
算子链
分区策略
工作综合能力问题问了很多
小组成员分工
如何分配任务
如何协调资源
举例工作中遇到难以协调的事情,最后怎么解决的
你做了哪些额外的工作,为什么
请说出你的一个优点和一个缺点

恒生电子

一面
开局人口调查,各种查户口问你个人情况
一顿问未来你的规划发展
数据量多少
数据采集方式是什么
建模的指标是什么
建模怎么建
评审怎么审
DM层谁做
你最大的优势是什么
讲一下数据治理

二面
数仓分层设计
数据源是什么
遇到什么问题
数据质量怎么做
数据仓库如果作为一个产品,你怎么设计,考虑哪些方面

三面
讲项目,一共问了1个

四面
全程问怎么做数据质量
场景题:数据源表没有时间字段,没有自增id,要求对这张表做增量同步,怎么做

网易1

一面(Java)
讲项目,一共问了3个
Flink Checkpoint
端到端的一致性
水印
ClickHouse为什么快,底层原理
Hive执行原理
MySQL HA部署
JVM调优
微服务Dubbo
Volatile
ConcurrentHashMap
Lock/Synchronized
设计模式
IOC
AOP

二面(运维/客户支撑)
Hive小文件的影响
order by、sort by区别及场景,举例
列裁剪、分区裁剪
分区底层实现
Hive倾斜表现
视图中使用中文会怎么样
场景题:如果有a b c三个字段,有1 2 3三个分区,修改表加了个d字段,重跑1分区的数据,会出现什么问题
Spark小文件的情况
Stage划分、job划分
Rdd、DataFrame、DataSet区别

网易2

一面
讲项目,一共问了3个
数仓设计
建模
遇到哪些问题
写过哪些应用服务
HBase设计

二面
讲项目,一共问了1个
Shuffle原理
Shuffle为什么要排序
Map数量的因素
场景题:HDFS中默认128m分块的配置,一个1G的文件,只有一行数据,在底层分几块
这个文件在Shuffle中是怎么处理的
FileInput的几个类详细讲讲
数据质量
如果要将用户表设计出事实表,怎么做
拉链表
ClickHouse为什么快
你觉得架构师需要拥有什么能力

三面
讲项目,一共问了3个
数仓设计
数据质量
元数据管理
数据量、数据规模
组内成员数量、如何分工
职业规划
遇到难题解决的思路
开放题:不从技术角度回答,如何统计某城市一天的丰田车数量

滴滴1

一面(小姐姐)
讲项目,一共问了3个
Flink监控
Flink JVM调优
回撤流
流join
Checkpoint、savepoint
版本更迭,状态不兼容怎么处理
MapReduce原理
笔试题:用shell实现在日志文件中,匹配出某info proc_time>100的日志,排序取top10
JVM调优
内存爆满为什么会导致CPU飙高
Int与Integer区别
集合 HashMap ConcurrentHashMap 加锁
多态
场景题:A、B两个大文件,各50亿条,存放的URL,要求进行join,怎么做(分桶、Hash、分治法)

二面(扯淡)
上来直接3道SQL题
1、topN
2、Session拆分
3、一天中所有页面的平均停留时长

唯一一道技术问题:Hive SQL执行原理

看似开放但是他不让你开放的题(20分钟):
不从技术角度回答,如何统计星巴克某门店一天的营业额,自由发挥,尽情畅享
然而只要你自由畅享,他就说你说偏了,然后开始引导你,引导到他提前挖好的坑让你跳,最后给你一顿否定

最后开始扯蛋(20分钟):
1、跳槽理由
2、学习渠道
3、兴趣爱好
4、你为什么喜欢滑板,你滑板的时候都跟谁一起,你用什么姿势滑,为什么,滑板为什么让你爽,让你爽的点在哪(无语)
5、你尤克里里现在还弹吗,几级了,弹得怎么样啦(生怕大哥来一句你身边有吗来来给我弹一段)

滴滴2

一面
讲项目,一共问了1个
数仓设计
数仓建模
数据治理
数据采集
数仓开发流程
指标管理
数据稽核

二面
讲项目,一共问了1个
业务规模,数据量
小组成员数量,分工情况
剩下数仓方面跟一面问的差不多

如何看待数仓产出的滞后性
场景题:如果有一批数据,数据质量非常差,但是老板非常着急要数据,常规的数据处理流程有滞后性,怎么看待这件事,并且怎么处理

三面
数据量
遇到过哪些问题,怎么解决的
解决问题的思路
数据稽核
数据质量