阿里蚂蚁金服算法暑期实习面经

浏览 185 扫码分享 2023-11-22 00:29:43

一面（电话面）
二面（电话面）
End

一面（电话面）

2022.04.01 上午 10:00 感觉面试体验还是很好的，回答不上来的问题，面试官会一步一步地引导你，跟你讨论

一、自我介绍（2 min）

问了下倾向的工作地点，北京、上海、杭州？招实习生是面向校招 offer 的，面向明年毕业之后的工作地点

二、比赛经历

是 CV 任务吗
简单介绍下这个任务
我讲到伪标签机制时，面试官说这就是 PU learning 范式，我不太了解

比赛的原始图像是局部的还是整个太阳的？图像大小一致吗？

不一致，resize

数据增强用了哪些方法？
为什么没用添加人工噪声的方法？是因为原始图像都没有噪声吗？
比赛是有要求用简单的模型结构吗还是任何的结构都可以呢？
那为什么选择 resnet34、resnet18 这样比较简单一点的模型呢？

试了几个模型后 resnet34 效果比较好，而且数据量比较小，如果模型过大会有过拟合风险

具体尝试了哪些其他的模型结构呢？
更复杂的模型结构更容易收敛还是简单的模型结构更容易收敛呢？收敛速度
你刚才说到模型结构越复杂，在小数据集上越容易过拟合。那为什么相对于简单的模型，复杂模型过拟合可能性高一点？这个问题实际上就是模型结构和泛化能力以及过拟合参数量的问题

没答上来，说参数量大，较少的数据可能没法很好地训练参数，不能很好的收敛。面试官反问不能很好的收敛那应该是欠拟合呀。。。

learning 任务就是模型去拟合一个函数，这个模型参数越多，模型本身可以当作一个参数集合，那真实的函数相对来说复杂度是比较固定的，那要是模型的参数越多，会是什么情况？

答不上来。。。

问题再简化一下，还是个分类任务，如果用线性模型、逻辑回归做，你觉得会过拟合吗？

逻辑回归结构简单，参数很少，几乎不会有过拟合风险，应该是欠拟合的

如果把逻辑回归换成更复杂的神经网络，是不是就有过拟合的风险？它的学习能力更强，体现在对真实函数的 fiting 上面，什么意思？再换个角度，我们训练经常会加一些正则，正则约束的是什么？

正则就是在损失函数上加上参数的 q 次方

正则要限制/降低什么？

降低参数的绝对值，函数波动就会比较小，就能防止过拟合

如果参数的稀疏性比较高，是不是也符合正则所要达到的目的？

是的，L1 正则化

稀疏性比较高，就是参数减少了
你用的半监督学习机制这个方法是从哪学到的呢？
半监督机制一般叫 PU learning，这个有很多参数要调，比如置信度阈值的选择，和最终训练出来的模型结果是什么关系呢？
置信度选的高，选出来的样本会少一点，对训练模型来说也是不利的；但是置信度选的低，选出来的样本数多，但是训练模型中引入的噪声也会比较多一点，所以需要做权衡。那有没有一种办法，不调整置信度，同样置信度的情况下，调整模型结构，让它能对含噪声 label 的样本进行自我甄别，对噪声有比较好的鲁棒性？有哪些办法去做呢？

正则化降低参数的绝对值，也能减少噪声数据的干扰，模型鲁棒性更高一点
- 应该可以类似伪标签机制反过来，含噪声 label 的样本的预测概率应该比较低，对于预测置信率低于阈值的样本可以丢弃掉标签，这部分数据进行半监督学习，比如 mixMatch，给一个样本做多个数据增强，分别得到预测概率，这些预测概率求 MSE 等一致性 loss，使得这些预测概率越接近越好，因为它门本质是同一个样本，只是做了数据增强

resampling 对置信度比较高的样本进行更多的加权，reweighting 对难训的样本进行 reweighting。在半监督学习（PU learning）里有些 reweighting 方法比如 Focal Loss，那 Focal loss 对这种 TU learning 到底是适应还是不适应？换种问法，在你设计的半监督学习里，你要用一些含有噪声的伪标签，如果我在模型中用了 Focal loss，那模型的效果会怎么样变化？Focal Loss 的设计目的？

Focal Loss 可以处理类别样本不平衡问题。

如果二分类正样本数量很少，那相对来说正样本比负样本难学。那在 PU learning 半监督学习中，伪标签样本更难学还是原始标签的样本更难学？

伪标签样本中标签有噪声，所以更难学

两种标签的样本输入到模型里，哪种的 loss 可能会更大一些？

伪标签的 loss 更大一点，因为存在噪声

如果加了 focal loss，会对哪种样本加权更多？

对难训的伪标签样本的加权更多一些

那这样模型对噪声会更敏感还是？

会更敏感

那模型性能会变更好还是变更差？

应该会变差，因为对噪声更敏感

知识蒸馏训练学生模型具体是怎么操作的呢？

三、实习经历

实习的主要业务场景、需求是什么？
介绍一下任务

讲了下做的第一个任务

这个工作（第一个任务）持续了多久呀？

到上线两个多月

基线模型是什么结构？
基线结构设计上还是比较复杂的，它有 MTL，调参也会复杂一些？

基线各个任务的 loss 并没有设置权重，就是直接相加，我也没改动

所以基线设计比较复杂，但比较粗糙一点？
你的另一个工作 MTL 结构和 MMOE 有什么区别？
各个 task 的指标？

点击率

后续有没有和组里其他人讨论下把这个模型结构做个改动之类的？
Attention FM 是什么结构？
从你的项目经验上看，读研期间应该在 CTR、CVR 预估方面着力比较多，在 CV 上面花的时间比较少一些？是这样吗？
你是学术型的硕士吗？有发论文的要求吗？有正在准备发的论文吗？准备在一年之内把这个论文完成是吧？
论文的任务是导师分配的吗还是自己找的？
FM 处理二阶的特征交叉，FM 其实发展出了很多的结构，基本目的还是解决特征交叉的问题，可以讲一下发展历程吗？

讲了 POLY2->FM->FFM->DeepFM，别的深度学习模型不太记得了，又讲了下 DCN

FM 一般是二阶的特征交叉，那么树模型，比如随机森林可以做到几阶的特征交叉？
既然树模型可以处理更高阶的特征交叉，那么是不是树模型的效果更好一些？

对树不了解

MLP 的特征交叉能力？
Deep FM 中将 FM 部分去掉和 MLP 部分去掉，哪个对结果的影响大？你觉得是 MLP 的特征交叉更重要还是 FM 的特征交叉更重要？
一般的任务，单独跑一个 Deep FM 和 FM 哪个效果比较好？

那应该是 Deep FM 的效果比较好，虽然我没试过，但如果效果比不过单独的 FM，那没必要组合 FM 和 MLP，就是无用功

那提升量应该不会很多吧？
FM 这部分怎么处理连续特征？

连续值特征也可以通过分桶等操作转化为离散型特征，再通过 one-hot/multi-hot 编码，再转换为 embedding

Wide&Deep 中 wide 部分一般用什么办法处理连续特征？

四、反问环节

你们这边具体做的事情？

和你技术栈比较相关的工作是，会涉及到用户画像，和 CTR 比较像，给用户提额/降额后行为的变化。别的还有知识图谱/翻译等，涉及到 NLP，seq2seq 模型

转正机制/要求/时间节点？

没有时间节点，可以认为如果这个实习面试通过了，你可以任意找个地方实习，上海杭州是最好的，实习项目什么的只要不是表现特别差都能通过，实习时间没有一个定性的要求。这个实习面试如果通过了，在很大程度上等价于发了校招的 offer（肯定不是百分之百等价，但在很大程度上等价）

关于这次面试的结果一般多久会有通知呢？

每一轮在三天之内，如果通过了，一般在三天内会有下一轮面试官联系（不是百分百三天，可能会超期，但一般都是三天内）

二面（电话面）

2022.04.15 下午 15:30 二面还是电话面，只问了 21 分钟（约面的时候就说 30 分钟左右），也没有算法题。面试官是清华姚班的巨佬，但是态度很好，面试体验也很好。虽然面时间很短，不知道会不会是 kpi 面，而且一面过去了半个月才约的二面。。。。。。

一、自我介绍

二、经历

介绍一下实习的经历
你们的业务场景是什么呀？
为什么模型要训练一周多的时间？是数据量很大吗？

从 19 年开始的数据到我做的时候 21 年

但是用太老的数据训练，用户的表现其实是会变化的，所以为什么要用那么长的数据训练？
就是你们那边也没有尝试过只用比较新的数据训练的效果是吧？
有没有分析过为什么删掉一些特征后 AUC 反而会上升呢？
1. 一个是原来的基线模型可能存在过拟合的现象，所以打不平
2. 还有就是原本 deep nn tower 输入的特征数可能也不够，我虽然缩减了参数量，但是输入的特征数量变多了
除了 CTR 之外，你平时还会看些什么论文呢？
有没有你看的论文，你觉得算法思想比较有意思的，你印象最深刻的，能不能简单介绍一下？
CV 都了解过哪些算法呢？
transformer 这块熟不熟，核心思想或原理能介绍一下吗？
transformer 计算速度为什么会比 RNN/LSTM 快，是怎么做到并行计算的？

矩阵运算

那为什么 transformer 可以并行计算，LSTM 就不可以，是什么样的机制使得两者不一样？
对图神经网络了解吗？
我们部门其实在杭州/上海，这方面你是怎么考虑的，以及你毕业后的城市选择？
有没有发过一些论文？
毕业论文的课题有定下来吗？现在什么进展？

三、反问环节

你们这边做的具体工作？

蚂蚁的花呗/借呗，是消费信贷，我们做的是消费信贷的风险管理，要预测一个人的违约风险有多大。围绕这些会制定很多策略，判断要不要让用户准入，以及给用户提供的额度。

暑期实习转正的机制/要求？

给同学一个小的课题，看对算法的理解能力、动手能力、创新能力，主要看这三个

这轮面试的结果多久会有反馈呢？

明天或后天就会出个结果

End

第二天发现流程结束了，重新变为投递中了，二面挂了。。。

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录