北京河狸家+北京元安物联大数据开发面经(社招)
作者:我一定是中了圈套
链接:https://www.nowcoder.com/discuss/642464?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
北京河狸家+北京元安物联大数据开发面经~社招
- spark运行时并行度的设置
- spark小文件太多怎么处理?
- hive on spark动态解决小文件太多的办法
- Hive,Hive on Spark和SparkSQL区别?
- Hive,Hbase,HDFS等之间的关系
- 大数据平台架构技术选型与场景运用,你能讲解一下嘛!?
- 用户画像建模的过程
- case when函数你会用吗!?写一条sql
- sql的分析函数有哪些?
- sql的存储过程你理解嘛!?
- hive的开窗函数有哪些!?
- hive的udf函数你写过哪些!
- row_number相关排序函数!你了解嘛!?
北京元安物联大数据开发面经汇总
- 关于店铺网站页面访问流分析这一块,里面的基础的数据需求是怎么来的?
- 你们这些指标力度主要是在pv、uv、ip是嘛?在哪些维度上会产生?
- 数据提取是怎么提取的?有没有用比如一些第三方的一些服务?
- 这个PIO模式是怎样?PIO入库
- 你们在数据清洗的过程是怎样做的?
- 14)除了产品外,会提一些数据方面的要求,还是你们自己制定?
- 广播变量的使用及为何使用,原理
- 数据清洗和入库这一块是怎么去做计算的
- hbase的热点问题怎么形成的
- kafka为什么要设5个分区
- sparkstreaming的开窗函数
- 产生shuffle的算子
- hashMap与hashtable的区别
- redis集群宕机的问题
- 创建scalaMap有—>和元组两种
- spark的collect收集的数据在DriverJVM内存中
- hdfs的存储格式:parquet压缩使用snappy
- hive的存储格式以及对集合的操作
- sparkStreaming的容错
- spark缓存的数据放到哪里,计算的数据放到哪里
- 项目中遇到的问题,以及解决思路
- Hbase存放那些数据,多大量
- 创建DataFream有几种方式,他与DataSet还有RDD区别和优缺点
- ArrayList与LinkedList区别
- Kafka的数据积压和数据倾斜问题
公司在北京朝阳望京,没有融资,几十人规模。创业型公司,技术人才很多,对于刚入行来说是个不错选择~