富途大数据应用面经

    作者:天才代号23
    链接:https://www.nowcoder.com/discuss/626834?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    来offer!来offer!来offer!

    网上富途的大数据应用工程师的面经比较少,唯一找到的一篇问的还不是大数据方向的,所以来补充一篇,也赞赞人品。

    笔试:
    笔试的选择题都是数据分析甚至算法工程师方向的,比如会问你过拟合怎么处理、KNN算法等,当时做的时候也很懵,我投的不是大数据方向的吗,怎么问的都是机器学习的,幸好还是通过了笔试。
    编程题难度还行,题目忘记了。

    一面:30min左右
    自我介绍
    Java反射的作用
    线程和进程的区别
    NIO和BIO
    MySQL常用的存储引擎及其区别
    Linux中查看当前文件夹下所有文件和文件夹的大小的命令
    Linux中查看占用某个端口的进程:回答了netstat和lsof。
    netstat和lsof的区别
    HDFS读写流程
    Kafka高可用的实现
    Kafka集群为什么挂掉一个broker后还能工作
    Hive内部表和外部表
    HBase rowkey的设计原则
    如何查询散列后的rowkey
    Flume分为哪几块
    Channel的类型
    Impala的作用
    Impala和Hive各自的优缺点
    介绍自己的项目
    Flume传输数据的时候如何保证数据一致性
    HDFS上小文件过多的原因和解决方法
    Hive的UDF函数开发流程
    Hive为什么要用Tez框架
    编程题:股票的最大利润,详见: https://leetcode-cn.com/problems/gu-piao-de-zui-da-li-run-lcof/
    反问

    二面:20min左右
    (只记得下面几个问题)
    平常遇到的问题,怎么解决
    HDFS集群的一些问题,比如能容忍几台DataNode挂掉,感觉这个问题似乎不像Zookeeper那样有一个标准答案
    接着又问如果一天挂掉一台DataNode会怎么样
    一百亿条数据(不确定是不是这个数,反正就是很大的数据量)怎么排序,不要用Hive和MapReduce
    Java的内存泄漏
    MySQL读取很大很大的数据集,一边select一边写入,结果如何

    二面记得的比较少, 大概就是这些。
    许愿HR面,许愿HR面,许愿HR面