一面
2022.4.6 早上 10:15。忘记录音了,就记录下还记得的一些问题。只面了三十多分钟
一、自我介绍
二、实习经历
- 介绍一些你做的工作,包括背景、怎么做的等
- 有没有进一步的对模型改进的工作?
- 还有没有后续可以改进的方向呢?
- AUC 怎么算的,公式?
- 怎么做特征预处理和特征选择?
- 除了 NAS 还用过什么特征选择方法?
- 为什么 embedding 的 L2 范数可以代表特征重要性?embedding 实际上可以表征特征之间的相似性,不一定就代表重要性吧?
- LR 的参数 w 就代表特征重要性,w 相当于一维 embedding
- 为什么 LR 的参数可以代表重要性而别的模型不行?
- LR 强调记忆,对于特征和标签贡献频率高的就赋予较大的权重参数,相当于直接记忆,也就是说参数大的特征重要性高?
- LR 的损失函数及公式?
- 交叉熵损失函数
- 交叉熵代表的什么?熵代表的什么?
- 不太清楚,熵代表的是混乱程度,交叉熵代表的是两个分布的相似性?
- 熵:是体系混乱程度的度量
- 交叉熵:度量两个概率分布间的差异性信息
- 还了解其它损失函数吗?
- 均方误差、Focal Loss
- 介绍一下 Attention
- 有点懵,说大概相当于求权重,比如具体到推荐系统中,原本处理序列数据,比如用户历史点击文章序列,原本可能就是直接求和 sum pooling,对序列里的文章一视同仁,而 DIN attention 是求加权和,权重代表每个历史文章和候选文章之间的相关性
- attention 就是给序列中各个元素分配一个权重系数。
- attention 机制是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中
- 计算机视觉中的注意力机制
- 其他的序列处理方法了解吗?
- 不太了解,没怎么做过这方面的工作
- 树了解吗?GBDT、XGBoost?
- 不了解
- 了解 RNN、LSTM 吗?
- 不了解
三、算法题
- 无序数组找第 K 大,先说下思路再写代码([中等] 215. 数组中的第K个最大元素)
- 用快速选择做
- 又问快速选择的时间复杂度是多少,为什么是 O(N) 不是 O(NlogN)
- 简化一下假设每次舍弃一半,那么每次处理的长度 N、1/2N、1/4N、……,由等比数列的求和公式求出来是 O(N)
四、反问环节
- 可以介绍一下你们做的什么工作吗?
- 网易云音乐各个场景的推荐算法,比如歌单推荐、每日歌曲推荐等
- 请问转正机制/要求是什么,有没有什么时间节点
- 面试官不是很清楚
- 这次的面试结果大概多久会有反馈呢?
- 应该几天之内会有通知。不过后来收到的短信说的 10 天之内。。。
End
2022.4.16,一面后 10 天,收到短信说我挂了。。。
