百度算法暑期实习面经

浏览 184 扫码分享 2023-11-22 00:29:48

一面
二面
三面
End

2022.04.10 早上 9:50 - 12:00 连续三轮面试。都忘记录音了。百度只能选大方向：算法 or 开发，具体算法做的什么方向不能确定。。。。。。

一面

一、自我介绍

二、比赛/实习经历

介绍一下这个比赛 & 做法
尝试过其它数据增强方法吗？比如 MixUp，将多张图像做像素融合，标签也做融合

为什么选择伪标签这种半监督机制？
知道其它半监督学习方法吗？比如 MixMatch 相当于数据增强 + 弱监督学习，是现在最强的半监督学习方法。。

知道一致性损失吗（就是上面提的 MixMatch 半监督学习方法用的）？你使用伪标签机制对于预测概率小于阈值的测试样本就遗弃掉了，能不能用其它半监督学习方法，用一致性损失来加以利用，得到更好的 representation 呢？一致性 loss 就是说对同一张图像，使用多种数据增强方法得到多张图片，经过模型得到多个 logit 输出，对这几个 logit 输出做 MSE loss。即，不同数据增强的图像应该还是同一个类别的，所以输出应该相近。对于大量没有标签的数据，没有真实标签，就可以通过这方法得到更好的表 representation
介绍一下怎么用 NAS 做特征重要性分析？
有没有试过传统的机器学习方法来做特征重要性分析，比如 PCA、SVD 等？

没有。面试官说可以先用简单的传统方法做个 baseline，再用复杂的方法（比如你用的 NAS），才能比较你这种复杂方法的效果

看你的成绩还不错，对什么课程比较喜欢呢？
矩阵的秩是什么？

线代都忘了

假如数据集中很多样本的标签是错误的，该怎么处理呢？结合你用的半监督学习方法可以怎么做呢？

加入正则化项，减小参数的值，可以避免过拟合，减少噪声的影响
面试官又问结合之前伪标签的方法，可以怎么做呢？——对于错误标签的样本，预测的 confidence 会比较低，那么和伪标签机制正相反，这里可以将 confidence 低的样本的标签去掉，然后将这部分样本用半监督学习方法处理，比如用前面提到的一致性损失。

三、反问环节

二面

一、两道算法题：

二叉树根节点到叶子节点的最短路径的节点数
格雷码：[中等] leetcode 89. 格雷编码

输入 n 代表二进制编码的长度，输出 n 个格雷码代表的值。格雷码前后两个数的二进制编码只有一位不同。

二、实习经历

场景题：你用特征选择的方法来降低模型的参数量，那有没有考虑过通过对样本进行处理来降低复杂度（你用的是 19 年至今的所有样本，没有进行过处理），比如说删除无效样本，or 通过无监督学习去掉相似样本？

三、反问环节

三面

三面有点像 HR 面，没有问项目相关的

自我介绍
实验室做的什么方向
你实习的方向和你实验室不一样，这是你自己选的方向吗？
这个比赛，你是什么角色呢？
实习工作中的难点以及你是怎么做的？
。。。。。。
反问环节

End

三面没问技术，结果三面给我挂了。。。面完官网状态就变成共享中了

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录