202103 - 20210329-01 - 《大数据笔记》

富途大数据应用面经

作者：天才代号23
链接：https://www.nowcoder.com/discuss/626834?source_id=discuss_experience_nctrack&channel=-1
来源：牛客网

来offer！来offer！来offer！

网上富途的大数据应用工程师的面经比较少，唯一找到的一篇问的还不是大数据方向的，所以来补充一篇，也赞赞人品。

笔试：
笔试的选择题都是数据分析甚至算法工程师方向的，比如会问你过拟合怎么处理、KNN算法等，当时做的时候也很懵，我投的不是大数据方向的吗，怎么问的都是机器学习的，幸好还是通过了笔试。
编程题难度还行，题目忘记了。

一面：30min左右
自我介绍
Java反射的作用
线程和进程的区别
NIO和BIO
MySQL常用的存储引擎及其区别
Linux中查看当前文件夹下所有文件和文件夹的大小的命令
Linux中查看占用某个端口的进程：回答了netstat和lsof。
netstat和lsof的区别
HDFS读写流程
Kafka高可用的实现
Kafka集群为什么挂掉一个broker后还能工作
Hive内部表和外部表
HBase rowkey的设计原则
如何查询散列后的rowkey
Flume分为哪几块
Channel的类型
Impala的作用
Impala和Hive各自的优缺点
介绍自己的项目
Flume传输数据的时候如何保证数据一致性
HDFS上小文件过多的原因和解决方法
Hive的UDF函数开发流程
Hive为什么要用Tez框架
编程题：股票的最大利润，详见： https://leetcode-cn.com/problems/gu-piao-de-zui-da-li-run-lcof/
反问

二面：20min左右
（只记得下面几个问题）
平常遇到的问题，怎么解决
HDFS集群的一些问题，比如能容忍几台DataNode挂掉，感觉这个问题似乎不像Zookeeper那样有一个标准答案
接着又问如果一天挂掉一台DataNode会怎么样
一百亿条数据（不确定是不是这个数，反正就是很大的数据量）怎么排序，不要用Hive和MapReduce
Java的内存泄漏
MySQL读取很大很大的数据集，一边select一边写入，结果如何

二面记得的比较少，大概就是这些。
许愿HR面，许愿HR面，许愿HR面