富途大数据应用面经
作者:天才代号23
链接:https://www.nowcoder.com/discuss/626834?source_id=discuss_experience_nctrack&channel=-1
来源:牛客网
来offer!来offer!来offer!
网上富途的大数据应用工程师的面经比较少,唯一找到的一篇问的还不是大数据方向的,所以来补充一篇,也赞赞人品。
笔试:
笔试的选择题都是数据分析甚至算法工程师方向的,比如会问你过拟合怎么处理、KNN算法等,当时做的时候也很懵,我投的不是大数据方向的吗,怎么问的都是机器学习的,幸好还是通过了笔试。
编程题难度还行,题目忘记了。
一面:30min左右
自我介绍
Java反射的作用
线程和进程的区别
NIO和BIO
MySQL常用的存储引擎及其区别
Linux中查看当前文件夹下所有文件和文件夹的大小的命令
Linux中查看占用某个端口的进程:回答了netstat和lsof。
netstat和lsof的区别
HDFS读写流程
Kafka高可用的实现
Kafka集群为什么挂掉一个broker后还能工作
Hive内部表和外部表
HBase rowkey的设计原则
如何查询散列后的rowkey
Flume分为哪几块
Channel的类型
Impala的作用
Impala和Hive各自的优缺点
介绍自己的项目
Flume传输数据的时候如何保证数据一致性
HDFS上小文件过多的原因和解决方法
Hive的UDF函数开发流程
Hive为什么要用Tez框架
编程题:股票的最大利润,详见: https://leetcode-cn.com/problems/gu-piao-de-zui-da-li-run-lcof/
反问
二面:20min左右
(只记得下面几个问题)
平常遇到的问题,怎么解决
HDFS集群的一些问题,比如能容忍几台DataNode挂掉,感觉这个问题似乎不像Zookeeper那样有一个标准答案
接着又问如果一天挂掉一台DataNode会怎么样
一百亿条数据(不确定是不是这个数,反正就是很大的数据量)怎么排序,不要用Hive和MapReduce
Java的内存泄漏
MySQL读取很大很大的数据集,一边select一边写入,结果如何
二面记得的比较少, 大概就是这些。
许愿HR面,许愿HR面,许愿HR面