一面

2022.4.6 早上 10:15。忘记录音了,就记录下还记得的一些问题。只面了三十多分钟

一、自我介绍

二、实习经历

  1. 介绍一些你做的工作,包括背景、怎么做的等
  2. 有没有进一步的对模型改进的工作?
  3. 还有没有后续可以改进的方向呢?
  4. AUC 怎么算的,公式?
  5. 怎么做特征预处理和特征选择?
  6. 除了 NAS 还用过什么特征选择方法?
  7. 为什么 embedding 的 L2 范数可以代表特征重要性?embedding 实际上可以表征特征之间的相似性,不一定就代表重要性吧?
  • LR 的参数 w 就代表特征重要性,w 相当于一维 embedding
  1. 为什么 LR 的参数可以代表重要性而别的模型不行?
  • LR 强调记忆,对于特征和标签贡献频率高的就赋予较大的权重参数,相当于直接记忆,也就是说参数大的特征重要性高?
  1. LR 的损失函数及公式?
  • 交叉熵损失函数
  1. 交叉熵代表的什么?熵代表的什么?
  • 不太清楚,熵代表的是混乱程度,交叉熵代表的是两个分布的相似性?
  • 熵:是体系混乱程度的度量
  • 交叉熵:度量两个概率分布间的差异性信息
  1. 还了解其它损失函数吗?
  • 均方误差、Focal Loss
  1. 介绍一下 Attention
  • 有点懵,说大概相当于求权重,比如具体到推荐系统中,原本处理序列数据,比如用户历史点击文章序列,原本可能就是直接求和 sum pooling,对序列里的文章一视同仁,而 DIN attention 是求加权和,权重代表每个历史文章和候选文章之间的相关性
  • attention 就是给序列中各个元素分配一个权重系数
  • attention 机制是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中
  • 计算机视觉中的注意力机制
  1. 其他的序列处理方法了解吗?
  • 不太了解,没怎么做过这方面的工作
  1. 树了解吗?GBDT、XGBoost?
  • 不了解
  1. 了解 RNN、LSTM 吗?
  • 不了解

三、算法题

  1. 无序数组找第 K 大,先说下思路再写代码([中等] 215. 数组中的第K个最大元素
  • 用快速选择做
  • 又问快速选择的时间复杂度是多少,为什么是 O(N) 不是 O(NlogN)
    • 简化一下假设每次舍弃一半,那么每次处理的长度 N、1/2N、1/4N、……,由等比数列的求和公式求出来是 O(N)

四、反问环节

  1. 可以介绍一下你们做的什么工作吗?
  • 网易云音乐各个场景的推荐算法,比如歌单推荐、每日歌曲推荐等
  1. 请问转正机制/要求是什么,有没有什么时间节点
  • 面试官不是很清楚
  1. 这次的面试结果大概多久会有反馈呢?
  • 应该几天之内会有通知。不过后来收到的短信说的 10 天之内。。。

End

2022.4.16,一面后 10 天,收到短信说我挂了。。。