2022.04.10 早上 9:50 - 12:00 连续三轮面试。都忘记录音了。百度只能选大方向:算法 or 开发,具体算法做的什么方向不能确定。。。。。。
一面
一、自我介绍
二、比赛/实习经历
- 介绍一下这个比赛 & 做法
- 尝试过其它数据增强方法吗?比如 MixUp,将多张图像做像素融合,标签也做融合
- 为什么选择伪标签这种半监督机制?
- 知道其它半监督学习方法吗?比如 MixMatch 相当于数据增强 + 弱监督学习,是现在最强的半监督学习方法。。
- MixMatch - 超强的半监督学习方法
- 半监督学习:MixMatch
- 强到没朋友的MixMatch半监督学习利器 - bilibili
- MixMatch半监督学习论文分析【终于说清楚了系列1】
- 半监督学习之MixMatch
- 半监督学习:MixMatch和ReMixMatch
- 知道一致性损失吗(就是上面提的 MixMatch 半监督学习方法用的)?你使用伪标签机制对于预测概率小于阈值的测试样本就遗弃掉了,能不能用其它半监督学习方法,用一致性损失来加以利用,得到更好的 representation 呢?一致性 loss 就是说对同一张图像,使用多种数据增强方法得到多张图片,经过模型得到多个 logit 输出,对这几个 logit 输出做 MSE loss。即,不同数据增强的图像应该还是同一个类别的,所以输出应该相近。对于大量没有标签的数据,没有真实标签,就可以通过这方法得到更好的表 representation
- 介绍一下怎么用 NAS 做特征重要性分析?
- 有没有试过传统的机器学习方法来做特征重要性分析,比如 PCA、SVD 等?
- 没有。面试官说可以先用简单的传统方法做个 baseline,再用复杂的方法(比如你用的 NAS),才能比较你这种复杂方法的效果
- 看你的成绩还不错,对什么课程比较喜欢呢?
- 矩阵的秩是什么?
- 线代都忘了
- 假如数据集中很多样本的标签是错误的,该怎么处理呢?结合你用的半监督学习方法可以怎么做呢?
- 加入正则化项,减小参数的值,可以避免过拟合,减少噪声的影响
- 面试官又问结合之前伪标签的方法,可以怎么做呢?——对于错误标签的样本,预测的 confidence 会比较低,那么和伪标签机制正相反,这里可以将 confidence 低的样本的标签去掉,然后将这部分样本用半监督学习方法处理,比如用前面提到的一致性损失。
三、反问环节
二面
一、两道算法题:
- 二叉树根节点到叶子节点的最短路径的节点数
- 格雷码:[中等] leetcode 89. 格雷编码
- 输入 n 代表二进制编码的长度,输出 n 个格雷码代表的值。格雷码前后两个数的二进制编码只有一位不同。
二、实习经历
- 场景题:你用特征选择的方法来降低模型的参数量,那有没有考虑过通过对样本进行处理来降低复杂度(你用的是 19 年至今的所有样本,没有进行过处理),比如说删除无效样本,or 通过无监督学习去掉相似样本?
三、反问环节
三面
三面有点像 HR 面,没有问项目相关的
- 自我介绍
- 实验室做的什么方向
- 你实习的方向和你实验室不一样,这是你自己选的方向吗?
- 这个比赛,你是什么角色呢?
- 实习工作中的难点以及你是怎么做的?
- 。。。。。。
- 反问环节
End
三面没问技术,结果三面给我挂了。。。面完官网状态就变成共享中了
