作者:牛客899427222号
    链接:https://www.nowcoder.com/discuss/611776?source_id=discuss_experience_nctrack&channel=-1
    来源:牛客网

    Spark

    内存管理
    数据落盘
    shuffle
    能产生shuffle的算子
    数据倾斜
    堆和栈

    相关属性
    更新节点时间复杂度
    MySql索引

    索引存储结构
    mysql底层索引实际数据结构
    进程线程通信

    线程通信方式
    进程通信方式
    实际内存与虚拟内存

    代码题

    计算抖音用户在线峰值(分钟级)
    1
    2
    3
    //日志文件结构,timstampe表示时间戳,uid表示用户Id,logtype表示用户上线和下线状态(1表示上线,-1表示下线1)
    (timstampe:String uid:Int logtype:Int)
    //用户在线:从用户上线到用户下线这一时间段都算用户在线
    二面

    看过spark底层源码没有

    流式框架

    节点挂了,怎么保证任务正常执行
    有状态怎么维护之前的状态
    checkpoint数据重用前提
    并行度

    怎样提高并行度
    相关参数
    背压机制

    应用场景

    底层实现

    join的有几种实现

    boardcast hash

    shuffle hash

    sorted merge

    Mysql

    隔离界别
    读提交会造成哪些数据不一致问题
    mysql默认那种隔离级别
    Hbase写入方式

    bulkload
    不同写入方式的应用场景
    synchronize底层实现

    锁升级

    与lock区别

    公平?

    用spark遇到了哪些问题

    代码题:

    给一个链表 奇数位是递增的 偶数位是递减的 重新排序该链表,使链表从小到大排序
    思路:双指针得两条链表,反转偶数位得到的链表,两条链表重排序
    昨天面的一二面,今天通知过了,约明天电话三面