整理最近面的大数据开发题目(字节,阿里,腾讯)

作者:阿里巴巴-大数据开发专家
链接:https://www.nowcoder.com/discuss/622452?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网

均已拿offer

字节:32*15 有期权

1.spark调优,spark数据倾斜体在项目中,具体在哪些场景出现了?
2.订单服务,仓储服务以及其他业务模块之前是怎么进行关联的?是通过消息队列异步的吗?
3.sql中row_number和rank的区别?
4.订单模块中,你主要做了哪些工作?
5.订单的整个流转过程?
6.rabbitmq怎么保证消息不丢失?
7.rabbitmq怎么避免重复消费?
8.rabbitmq中怎么去通过消息日志判断消息被消费了,简单说下过程。
9.你觉得你工作中有哪些方面能做的更好?

1、数据仓库和数据中台区别
2、数据仓库中有哪几类数据建模
网上解答:范式建模法,维度建模法,实体建模法
其中:维度建模法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表,维表来构建数据仓库,数据集市
3、对于缓慢变化的数据,在数据仓库中是如何处理的
4、如何建立用户画像指标的,如何维护
5、如何实施数据清洗的?从哪些方面着手
6、如若提供出去的指标有问题,如何解决和定位

阿里:35*14 80W期权

自我介绍
描述你的这个大数据的项目的业务
整体的数据链路是怎样的
整体的流程是怎样的,从数据进来到数据处理完的整体节点
你们的规模是怎样的
你在项目中主要负责什么
你在项目中担任什么样的角色
你学习大数据多久了
你怎样理解数仓,你们现在进行到哪一步
你了解的大数据组件有哪些
HDFS写流程
介绍下Kafka
HDFS 中向 DataNode 写入数据失败了怎么办
目前有没有实时计算或者离线计算的需求
hadoop2.x HDFS快照
Hive外部表和内部表
大数据学习方式,实践占比
Flume source的种类
有跟市面上其他产品对比过嘛
为什么采用Flume
channel的种类

公司采用的Mysql的是什么架构 —mgr组策略 主从 集群
数据同步会产生什么问题,如何解决
mysql的调优
如何发现慢查询以及如何解决慢查询的问题
最左原则
全文索引
间隙锁

volatile 原理
synchronized 原理
synchronized jDk1.6以后做的优化
synchronized的锁升级
ConcurrentHashMap的线程安全—源码
ThreadLocal原理
扩容机制
hashMap的扩容机制

腾讯:

一面

  • 自我介绍
  • 在工作中负责的内容
  • 数仓分层
  • Spark 任务遇见过哪些问题?怎么解决的
  • 维表和事实表
  • 事实表有哪些种类
  • 项目组有哪些人,什么指责
  • 有多少张表,是怎么管理的
  • sql题
  • join 时 on 和 where 语法
  • 用户连续打卡天数

二面

  • 自我介绍
  • 在工作中负责的内容
  • 数仓分层
  • 主题是怎么划分的,从那一层开始,为什么
  • 维表和事实表
  • 事实表有哪些种类
  • 数据质量是怎么保证的,有哪些方法保证
  • 怎么衡量数仓的数据质量,有哪些指标
  • 离线任务遇见过哪些问题,怎么处理的,如数据迟到、数据重复
  • 怎么保证数据的一致性