20210416-02

浏览 126 扫码分享 2023-11-23 13:57:32

北京河狸家+北京元安物联大数据开发面经（社招）

作者：我一定是中了圈套
链接：https://www.nowcoder.com/discuss/642464?source_id=discuss_experience_nctrack&channel=-1
来源：牛客网

北京河狸家+北京元安物联大数据开发面经~社招

spark运行时并行度的设置
spark小文件太多怎么处理？
hive on spark动态解决小文件太多的办法
Hive，Hive on Spark和SparkSQL区别？
Hive,Hbase,HDFS等之间的关系
大数据平台架构技术选型与场景运用，你能讲解一下嘛！？
用户画像建模的过程
case when函数你会用吗！？写一条sql
sql的分析函数有哪些？
sql的存储过程你理解嘛！？
hive的开窗函数有哪些！？
hive的udf函数你写过哪些！
row_number相关排序函数！你了解嘛！？

北京元安物联大数据开发面经汇总

关于店铺网站页面访问流分析这一块，里面的基础的数据需求是怎么来的？
你们这些指标力度主要是在pv、uv、ip是嘛？在哪些维度上会产生？
数据提取是怎么提取的？有没有用比如一些第三方的一些服务？
这个PIO模式是怎样？PIO入库
你们在数据清洗的过程是怎样做的？
14)除了产品外，会提一些数据方面的要求，还是你们自己制定？
广播变量的使用及为何使用，原理
数据清洗和入库这一块是怎么去做计算的
hbase的热点问题怎么形成的
kafka为什么要设5个分区
sparkstreaming的开窗函数
产生shuffle的算子
hashMap与hashtable的区别
redis集群宕机的问题
创建scalaMap有—>和元组两种
spark的collect收集的数据在DriverJVM内存中
hdfs的存储格式：parquet压缩使用snappy
hive的存储格式以及对集合的操作
sparkStreaming的容错
spark缓存的数据放到哪里，计算的数据放到哪里
项目中遇到的问题，以及解决思路
Hbase存放那些数据，多大量
创建DataFream有几种方式，他与DataSet还有RDD区别和优缺点
ArrayList与LinkedList区别
Kafka的数据积压和数据倾斜问题

公司在北京朝阳望京，没有融资，几十人规模。创业型公司，技术人才很多，对于刚入行来说是个不错选择~

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录