搜狐新闻APP推荐算法暑期实习面经

浏览 114 扫码分享 2023-11-22 00:29:49

一面
二面
HR 面 & End

一面

2022.04.12 早 10:00，就面了三十多分钟

一、自我介绍

二、实习经历

介绍一下做的工作？
为什么需要重训？
为什么重训打不平？
减少参数后 AUC 提升为什么就能说明一定是过拟合呢？会不会可能是减少的这部分参数本身存在问题呢？
还有什么方法可以判断过拟合呢？
你特征选择和特征交叉项选择的这两种方法有什么不同呢？为什么要用不同的方法呢？
介绍一下 NAS 的原理
AUC 这个指标存在什么问题呢？怎么解决？

使用 GAUC

介绍一下做的下一个工作，多目标优化
你这个每个任务私有的部分的特征该怎么选择呢？是不是需要一些先验的知识？

三、算法题

[中等] 34. 在排序数组中查找元素的第一个和最后一个位置‘

要求 O(log n) 时间复杂度，即二分查找左边界和右边界

四、反问环节

二面

2022.04.14 下午 15:00。面试官是北邮校友呀

一、自我介绍

二、实习经历

多任务的目标都有哪些？

不同场景的 CTR

模型的结构？
那不会存在跷跷板现象吗？
这个和 PLE 的区别？
这个特征选择方法是怎么做的？
那怎么评估要选择多少特征呢？
选择的特征数量越多效果越好吗？
会看 GAUC 吗？

也看，但重点关注的还是 AUC

AB 指标为什么写的是人均停留而不是点击率呢？

人均阅读也是提升但没置信，就没写，写了置信提升的人均停留

NAS 是？会不会很耗时耗资源呢？
NAS 和别的特征选择方法比有什么区别呢？哪个效果好？
DFM tower 是怎样的结构？和 Deep FM 的区别？
这个工作主要做的是参数压缩的工作？

因为基线模型训练时间很长

训练数据从什么时候开始？样本量？

19 年开始，每天 1000w 左右

那早期的数据的特征和后来的不会发生变化吗？

没有太关注这方面

原来的模型有多大？

没到 1 T，几百个 G

uid embedding 的维度多大呢？
NAS 搜索出来的 emb size 最大的有哪些特征呢？
特征交叉项选择把哪些特征筛掉了呢？
share bottom 部分包含哪些结构呢？
LR 输入都是类别型特征吗？
LR 输入哪些特征会比较好呢？放用户 id 好吗？

用户 id 可能和别的特征做交叉比较好，LR 缺乏特征交叉能力，可能 uid 效果不好

为什么对另外两个结构做了特征选择，没有对 LR 的输入做选择呢？

分析了结构的重要性，以及考虑到不同结构的参数量占比

Attention FM 介绍一下
为什么 CVR 的特征交叉项选择用了不同的方法？

用 FI 的话，CVR 没有事先的人工筛选交叉项，那么只能输入所有特征交叉进行选择，那么模型就会很大，训不动，用 Attention FM 是矩阵的形式，交叉项对应一个值而不是 emb，极大地减少了参数量

闲聊了几句，你们现在寝室和我们当时看着不太一样啊 …… 面试官也是北邮的
字节这边是基于 tensorflow 的吗？是不是改了 emb 抽取这块，有了解吗？
除了你上面提到的，还知道哪些特征选择方法吗？是不是有 feature gate？

三、算法题

[中等] 54. 螺旋矩阵

四、反问

你们这边的具体工作（搜狐新闻 APP 的推荐算法）
暑期实习转正的机制/要求？
多久会反馈本次的面试结果呢？

三个工作日内，实际上不到一个小时 hr 就联系了。。。

HR 面 & End

三面完不到 1h 就接到了 hr 的电话，说面试通过了，也没问我有没有其他家的 offer 之类的，就要给我发 offer 了，说 6 月见。。。加了微信后说了下我的情况，说一周给答复要不要接 offer ~

搜狐转正是在 9、10 月秋招的时候走流程
实习日薪 250 R/天
工作时间：早 9:30 - 晚 18:30/19:00
办公地点：搜狐媒体大厦

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录