面试 - 百问百答 - 《Recommendation System》

协同过滤
矩阵分解
逻辑回归
FM
GBDT+LR
LS-PLM
DeepCrossing
PNN
Wide&Deep
FNN
DeepFM
DIN
CVR
ESMM
Embedding
召回

ItemCF, UserCF
矩阵分解
逻辑回归
FM, FFM
GBDT+LR

—————-DL———————

wide&deep（看论文+知乎
DeepFM —FM与DL的融合 deepfm参数的理解
DIN DIEN
YoutubeNet（看论文
ESMM
LS-PLM
Deep Crossing
NeuralCF
[ ] PNN

协同过滤
请简述基于用户的协同过滤UserCF的推荐过程。
在基于用户的协同过滤中，如何计算用户的相似度？
基于用户的协同过滤UserCF存在哪些缺陷？
请简述基于物品的协同过滤ItemCF的推荐过程。
请简述一下基于物品的协同过滤算法的离线工程实现（spark）
协同过滤算法计算过程中的大规模稀疏矩阵相乘在spark中的现有方案（multiply）有什么缺陷？如何改进？
请简述协同过滤算法的优缺点
实际业务中，为了让协同过滤对业务产生更大的价值，我们在使用该算法时需要注意哪些问题？
协同过滤算法会存在冷启动的问题，主要体现在哪里？
协同过滤算法可以用于哪些推荐业务场景？
请简述近实时协同过滤算法的工程实现

矩阵分解
矩阵分解的原理是什么？求解的主要方法有哪些？
如何从深度学习模型的角度来认识矩阵分解模型
矩阵分解算法中，隐向量的长度k的取值是如何影响效果和工程开销的？
请简述奇异值分解的过程。奇异值分解存在什么缺陷？为什么不适用于互联网场景下的求解？
请简述梯度下降法求解用户-物品隐向量的过程。
如何解决矩阵分解中用户和物品打分偏差的问题？

逻辑回归
逻辑回归模型预估相较于协同过滤，最大的优势是什么？其推荐过程是怎么样的？
请推导逻辑回归的数学形式。
请推导梯度下降法求解逻辑回归参数更新的过程。
逻辑回归作为CTR预估模型的优势与缺陷是什么？
在工业界，很少将连续值作为LR模型的特征输入，而是将连续特征离散化为一系列0、1特征，优势是什么？

FM
CTR预估中所有的特征进行两两交叉，并对所有的的组合赋予权重的方法存在什么缺陷？
FM的原理是什么？与矩阵分解有什么联系？
FM相较于POLY2为什么泛化能力更好？在工程上有什么优势？
FFM相较于FM有什么改进？
FM的训练复杂度是多少？怎么推导？FFM的训练复杂度是多少？

GBDT+LR
为什么GBDT可用于特征选择和特征组合？
GBDT+LR组合模型中，GBDT是如何生成特征向量的？
GBDT+LR有什么优点和缺陷？

LS-PLM
请简述阿里妈妈提出的LS-PLM模型的原理与数学形式。
LS-PLM模型的优势有哪些？
LS-PLM模型与深度学习模型有什么联系？深度模型

DeepCrossing
请简述Deep Crossing的网络结构。
Deep Crossing中的残差单元有什么作用？
NeuralCF在矩阵分解模型的基础上,做了哪些改进？

PNN
PNN相较NeuralCF和Deep Crossing有哪些改进？优势是什么？
PNN中特征交叉有哪些方式？分别是怎么样的？
PNN模型的优势和局限性是什么？

Wide&Deep
如何理解Wide&Deep模型的Memorization？
Wide&Deep中的Memorization存在哪些缺点？
如何理解Wide&Deep模型的Generalization？
Wide&Deep中的Generalization存在哪些缺点？
请简述Wide&Deep的模型结构。
Wide&Deep在训练的时候采用了Joint Training，有什么好处？
wide&deep论文中作者是如何应用wide&deep来做推荐的？
为什么wide&deep模型用ftrl和adagrad两种优化方法？
Wide&Deep模型的创新和优势是什么？
在应用场景中，哪些特征适合放在Wide侧，哪些特征适合放在Deep侧，为什么？
wide&deep模型中为什么要将连续特征离散化？
Deep&Cross相比Wide&Deep作了哪些改进？Deep&Cross模型的Cross网络是怎么操作的？

FNN
FNN模型的提出主要是为了解决什么问题？它是如何解决的？
FNN的模型结构是什么样的？
FNN模型中是如何使用FM来初始化Embeddiing层参数的？

DeepFM
DeepFM提出的动机是什么？
DeepFM中FM层与NN层是共享特征Embedding的好处是什么？
DeepFM相较于Wide&Deep有什么改进？为什么这么改进？
NFM相比Wide&Deep有什么改进？为什么这么改？

DIN
用户对于商品的兴趣有哪些特点？DIN是如何去捕捉用户兴趣的这些特点的？
对于用户兴趣的捕捉，我们一般有哪些方法？
DIN的输入是怎么处理的？
DIN的激活单元是如何设计的？
为什么增加叉乘作为输入？
为什么使用简单的MLP实现AU呢？
DIN中使用激活函数Dice替代经典的PReLU激活函数，优势是什么？
DIN使用了一种自适应正则，它的动机是什么？
DIN论文中使用了GAUC作为评价指标，它的好处是什么？
DIEN引入序列信息的动机是什么？
请绘制DIEN各层的结构？兴趣抽取层和兴趣进化层。

CVR
CVR预估到底要预估什么?
与CTR预估不同，cvr预估中面临的数据稀疏和样本选择偏差分别指的是什么？

ESMM
ESMM是如何解决样本选择偏差问题的？
ESMM是如何解决数据稀疏问题的？
ESMM的结构基于“乘”的关系设计而不是基于除的原因是什么?
解释一下ESMM的目标函数 Embedding

Embedding
Embedding技术为何对深度学习推荐系统来说非常重要？
请简述Word2Vec的原理和结构。
为了加快Word2Vec的训练，采取了什么方法？
谈谈你对Item2Vec的理解，它的局限是什么？
请简述双塔模型的结构，其中物品塔的作用是什么？
模型结构越复杂越好吗？特征越多越好吗？
DeepWalk的主要思想是什么？说出算法步骤
Node2Vec中的同质性和结构性指的是什么？他们与DFS和BFS的对应关系如何？
请写出Node2Vec的节点间跳转概率公式。
举例说明Node2Vec的同质性和结构性在推荐系统中的直观解释。
EGES的提出主要是为了弥补DeepWalk的缺陷的，怎么弥补的？
请简述EGES模型的结构，并简述每一层的做法。
Embedding在深度学习推荐系统中有哪些应用？列举三个方向。
Embedding作为深度学习模型的训练会存在什么问题？
Embedding有哪些预训练方法，分别介绍一下.

召回
请简述Embedding作为召回层的过程。
请简述局部敏感哈希的原理及其在推荐系统中的作用。
假设物品库数量达到百万级别，如何设计方法从这个数量级别的物品中推荐给用户top10的物品，同时可以减少计算的压力？
排序为什么比召回更受关注？
召回模型有什么显著区别于排序模型的特点？
为什么不能只拿”曝光未点击”做召回模型的负样本？
召回模型是如何对负样本进行随机采样的？
使用随机采样样本做负样本有什么缺陷？如何解决？
推荐系统中为什么要有召回？在推荐系统中召回和排序有什么异同？
推荐系统召回是怎么实现热门item的打压?
CTR预估与推荐系统的目标存在什么gap？
现实推荐系统只按”预估CTR”排序吗？
为什么CTR预估只适用于具备“真负”样本的场景？
推荐系统中有哪些场景是无法获得真负样本的？如何解决？
请简述基于embedding的召回方法，优势是什么？
Airbnb召回算法中的listing embedding召回是如何选择正负样本的？
Airbnb召回算法中的user/listing-type embedding召回是如何选择正负样本的？
Facebook的EBR算法是如何选择正负样本的？
召回为什么要求具有隔离user与item特征的解耦性？具体怎么解耦？
在召回场景下，为什么往往采用Pairwise LearningToRank来构建排序的相对准确性？
优化召回Pairwise LearningToRank使用的损失函数可以有哪几种形式？
Pinterest的PinSAGE是如何构建正样本的？
请简述DSSM模型的原理
DSSM的输入层将文本映射到低维向量空间转化成向量会存在什么问题？
请简要描述DSSM是如何应用于召回的？结构是怎样的？
请简述一下DSSM的优缺点
DSSM中的负样本为什么是随机采样得到的，而不用“曝光未点击”当负样本？
请简述百度的双塔模型
请简述YoutubeDNN的结构和其原理
请简述用户多兴趣网络MIND的出发点是什么，描述其结构？
SDM是如何结合用户长期和短期兴趣建模的？其结构如何？特征工程
让你设计一个推荐系统的特征工程，你会怎么去设计？包括用户侧、物品侧和上下文特征。
在进行特征处理时，对连续型特征怎么处理？
在进行特征处理时，对类别型特征怎么处理？探索与利用
当新用户注册或新物品入库的时候，该怎么给用户提供满意的推荐服务，以及怎么将新物品推荐出去，推荐给喜欢他的用户？
简述探索与利用的含义。
Greedy算法的原理是什么？有什么缺陷？
请简述Thompson Sampling方法的原理和步骤。
请问UCB方法是如何解决冷启动中的探索和利用问题的？
简述LinUCB的原理与具体的做法。特征评估
模型的实时性是如何影响推荐系统的效果的？
客户端是如何做到对于实时特征进行实时推荐的？
流计算平台是如何进行准实时特征处理的？
分布式存储系统HDFS和分布式批处理平台在推荐中的作用有哪些？
请简述offline/nearline/online训练方法和步骤。
请说出几种离线评估的指标。
请说出P-R曲线、ROC曲线和AUC的含义和关系。
如何巧妙地绘制ROC曲线？
线下AUC提升，一定会带来线上指标的提升吗？为什么？
为什么要进行AB测试？相比离线评估的优势是什么？
AB测试是如何设计分层和分流机制的？

百问百答

协同过滤

矩阵分解

逻辑回归

FM

GBDT+LR

LS-PLM

DeepCrossing

PNN

Wide&Deep

FNN

DeepFM

DIN

CVR

ESMM

Embedding

召回