一面(电话面)

2022.04.01 上午 10:00 感觉面试体验还是很好的,回答不上来的问题,面试官会一步一步地引导你,跟你讨论

一、自我介绍(2 min)

  1. 问了下倾向的工作地点,北京、上海、杭州?招实习生是面向校招 offer 的,面向明年毕业之后的工作地点

二、比赛经历

  1. 是 CV 任务吗
  2. 简单介绍下这个任务
  3. 我讲到伪标签机制时,面试官说这就是 PU learning 范式,我不太了解
  1. 比赛的原始图像是局部的还是整个太阳的?图像大小一致吗?
  • 不一致,resize
  1. 数据增强用了哪些方法?
  2. 为什么没用添加人工噪声的方法?是因为原始图像都没有噪声吗?
  3. 比赛是有要求用简单的模型结构吗还是任何的结构都可以呢?
  4. 那为什么选择 resnet34、resnet18 这样比较简单一点的模型呢?
  • 试了几个模型后 resnet34 效果比较好,而且数据量比较小,如果模型过大会有过拟合风险
  1. 具体尝试了哪些其他的模型结构呢?
  2. 更复杂的模型结构更容易收敛还是简单的模型结构更容易收敛呢?收敛速度
  3. 你刚才说到模型结构越复杂,在小数据集上越容易过拟合。那为什么相对于简单的模型,复杂模型过拟合可能性高一点?这个问题实际上就是模型结构和泛化能力以及过拟合参数量的问题
  • 没答上来,说参数量大,较少的数据可能没法很好地训练参数,不能很好的收敛。面试官反问不能很好的收敛那应该是欠拟合呀。。。
  1. learning 任务就是模型去拟合一个函数,这个模型参数越多,模型本身可以当作一个参数集合,那真实的函数相对来说复杂度是比较固定的,那要是模型的参数越多,会是什么情况?
  • 答不上来。。。
  1. 问题再简化一下,还是个分类任务,如果用线性模型、逻辑回归做,你觉得会过拟合吗?
  • 逻辑回归结构简单,参数很少,几乎不会有过拟合风险,应该是欠拟合的
  1. 如果把逻辑回归换成更复杂的神经网络,是不是就有过拟合的风险?它的学习能力更强,体现在对真实函数的 fiting 上面,什么意思?再换个角度,我们训练经常会加一些正则,正则约束的是什么?
  • 正则就是在损失函数上加上参数的 q 次方
  1. 正则要限制/降低什么?
  • 降低参数的绝对值,函数波动就会比较小,就能防止过拟合
  1. 如果参数的稀疏性比较高,是不是也符合正则所要达到的目的?
  • 是的,L1 正则化
  1. 稀疏性比较高,就是参数减少了
  2. 你用的半监督学习机制这个方法是从哪学到的呢?
  3. 半监督机制一般叫 PU learning,这个有很多参数要调,比如置信度阈值的选择,和最终训练出来的模型结果是什么关系呢?
  4. 置信度选的高,选出来的样本会少一点,对训练模型来说也是不利的;但是置信度选的低,选出来的样本数多,但是训练模型中引入的噪声也会比较多一点,所以需要做权衡。那有没有一种办法,不调整置信度,同样置信度的情况下,调整模型结构,让它能对含噪声 label 的样本进行自我甄别,对噪声有比较好的鲁棒性?有哪些办法去做呢?
  • 正则化降低参数的绝对值,也能减少噪声数据的干扰,模型鲁棒性更高一点
    • 应该可以类似伪标签机制反过来,含噪声 label 的样本的预测概率应该比较低,对于预测置信率低于阈值的样本可以丢弃掉标签,这部分数据进行半监督学习,比如 mixMatch,给一个样本做多个数据增强,分别得到预测概率,这些预测概率求 MSE 等一致性 loss,使得这些预测概率越接近越好,因为它门本质是同一个样本,只是做了数据增强
  1. resampling 对置信度比较高的样本进行更多的加权,reweighting 对难训的样本进行 reweighting。在半监督学习(PU learning)里有些 reweighting 方法比如 Focal Loss,那 Focal loss 对这种 TU learning 到底是适应还是不适应?换种问法,在你设计的半监督学习里,你要用一些含有噪声的伪标签,如果我在模型中用了 Focal loss,那模型的效果会怎么样变化?Focal Loss 的设计目的
  • Focal Loss 可以处理类别样本不平衡问题。
  1. 如果二分类正样本数量很少,那相对来说正样本比负样本难学。那在 PU learning 半监督学习中,伪标签样本更难学还是原始标签的样本更难学?
  • 伪标签样本中标签有噪声,所以更难学
  1. 两种标签的样本输入到模型里,哪种的 loss 可能会更大一些?
  • 伪标签的 loss 更大一点,因为存在噪声
  1. 如果加了 focal loss,会对哪种样本加权更多?
  • 对难训的伪标签样本的加权更多一些
  1. 那这样模型对噪声会更敏感还是?
  • 会更敏感
  1. 那模型性能会变更好还是变更差?
  • 应该会变差,因为对噪声更敏感
  1. 知识蒸馏训练学生模型具体是怎么操作的呢?

三、实习经历

  1. 实习的主要业务场景、需求是什么?
  2. 介绍一下任务
  • 讲了下做的第一个任务
  1. 这个工作(第一个任务)持续了多久呀?
  • 到上线两个多月
  1. 基线模型是什么结构?
  2. 基线结构设计上还是比较复杂的,它有 MTL,调参也会复杂一些?
  • 基线各个任务的 loss 并没有设置权重,就是直接相加,我也没改动
  1. 所以基线设计比较复杂,但比较粗糙一点?
  2. 你的另一个工作 MTL 结构和 MMOE 有什么区别?
  3. 各个 task 的指标?
  • 点击率
  1. 后续有没有和组里其他人讨论下把这个模型结构做个改动之类的?
  2. Attention FM 是什么结构?
  3. 从你的项目经验上看,读研期间应该在 CTR、CVR 预估方面着力比较多,在 CV 上面花的时间比较少一些?是这样吗?
  4. 你是学术型的硕士吗?有发论文的要求吗?有正在准备发的论文吗?准备在一年之内把这个论文完成是吧?
  5. 论文的任务是导师分配的吗还是自己找的?
  6. FM 处理二阶的特征交叉,FM 其实发展出了很多的结构,基本目的还是解决特征交叉的问题,可以讲一下发展历程吗?
  • 讲了 POLY2->FM->FFM->DeepFM,别的深度学习模型不太记得了,又讲了下 DCN
  1. FM 一般是二阶的特征交叉,那么树模型,比如随机森林可以做到几阶的特征交叉
  2. 既然树模型可以处理更高阶的特征交叉,那么是不是树模型的效果更好一些?
  • 对树不了解
  1. MLP 的特征交叉能力?
  2. Deep FM 中将 FM 部分去掉和 MLP 部分去掉,哪个对结果的影响大?你觉得是 MLP 的特征交叉更重要还是 FM 的特征交叉更重要?
  3. 一般的任务,单独跑一个 Deep FM 和 FM 哪个效果比较好?
  • 那应该是 Deep FM 的效果比较好,虽然我没试过,但如果效果比不过单独的 FM,那没必要组合 FM 和 MLP,就是无用功
  1. 那提升量应该不会很多吧?
  2. FM 这部分怎么处理连续特征?
  • 连续值特征也可以通过分桶等操作转化为离散型特征,再通过 one-hot/multi-hot 编码,再转换为 embedding
  1. Wide&Deep 中 wide 部分一般用什么办法处理连续特征

四、反问环节

  1. 你们这边具体做的事情?
  • 和你技术栈比较相关的工作是,会涉及到用户画像,和 CTR 比较像,给用户提额/降额后行为的变化。别的还有知识图谱/翻译等,涉及到 NLP,seq2seq 模型
  1. 转正机制/要求/时间节点?
  • 没有时间节点,可以认为如果这个实习面试通过了,你可以任意找个地方实习,上海杭州是最好的,实习项目什么的只要不是表现特别差都能通过,实习时间没有一个定性的要求。这个实习面试如果通过了,在很大程度上等价于发了校招的 offer(肯定不是百分之百等价,但在很大程度上等价)
  1. 关于这次面试的结果一般多久会有通知呢?
  • 每一轮在三天之内,如果通过了,一般在三天内会有下一轮面试官联系(不是百分百三天,可能会超期,但一般都是三天内)

二面(电话面)

2022.04.15 下午 15:30 二面还是电话面,只问了 21 分钟(约面的时候就说 30 分钟左右),也没有算法题。面试官是清华姚班的巨佬,但是态度很好,面试体验也很好。虽然面时间很短,不知道会不会是 kpi 面,而且一面过去了半个月才约的二面。。。。。。

一、自我介绍

二、经历

  1. 介绍一下实习的经历
  2. 你们的业务场景是什么呀?
  3. 为什么模型要训练一周多的时间?是数据量很大吗?
  • 从 19 年开始的数据到我做的时候 21 年
  1. 但是用太老的数据训练,用户的表现其实是会变化的,所以为什么要用那么长的数据训练?
  2. 就是你们那边也没有尝试过只用比较新的数据训练的效果是吧?
  3. 有没有分析过为什么删掉一些特征后 AUC 反而会上升呢?
    1. 一个是原来的基线模型可能存在过拟合的现象,所以打不平
    2. 还有就是原本 deep nn tower 输入的特征数可能也不够,我虽然缩减了参数量,但是输入的特征数量变多了
  4. 除了 CTR 之外,你平时还会看些什么论文呢?
  5. 有没有你看的论文,你觉得算法思想比较有意思的,你印象最深刻的,能不能简单介绍一下?
  6. CV 都了解过哪些算法呢?
  7. transformer 这块熟不熟,核心思想或原理能介绍一下吗?
  8. transformer 计算速度为什么会比 RNN/LSTM 快,是怎么做到并行计算的?
  • 矩阵运算
  1. 那为什么 transformer 可以并行计算,LSTM 就不可以,是什么样的机制使得两者不一样?
  2. 对图神经网络了解吗?
  3. 我们部门其实在杭州/上海,这方面你是怎么考虑的,以及你毕业后的城市选择?
  4. 有没有发过一些论文?
  5. 毕业论文的课题有定下来吗?现在什么进展?

三、反问环节

  1. 你们这边做的具体工作?
  • 蚂蚁的花呗/借呗,是消费信贷,我们做的是消费信贷的风险管理,要预测一个人的违约风险有多大。围绕这些会制定很多策略,判断要不要让用户准入,以及给用户提供的额度。
  1. 暑期实习转正的机制/要求?
  • 给同学一个小的课题,看对算法的理解能力、动手能力、创新能力,主要看这三个
  1. 这轮面试的结果多久会有反馈呢?
  • 明天或后天就会出个结果

End

第二天发现流程结束了,重新变为投递中了,二面挂了。。。