• ItemCF, UserCF
  • 矩阵分解
  • 逻辑回归
  • FM, FFM
  • GBDT+LR

—————-DL———————

  • wide&deep(看论文+知乎
  • DeepFM —FM与DL的融合 deepfm参数的理解
  • DIN DIEN
  • YoutubeNet(看论文
  • ESMM
  • LS-PLM
  • Deep Crossing
  • NeuralCF
  • [ ] PNN

    协同过滤

  • 请简述基于用户的协同过滤UserCF的推荐过程。

  • 在基于用户的协同过滤中,如何计算用户的相似度?
  • 基于用户的协同过滤UserCF存在哪些缺陷?
  • 请简述基于物品的协同过滤ItemCF的推荐过程。
  • 请简述一下基于物品的协同过滤算法的离线工程实现(spark)
  • 协同过滤算法计算过程中的大规模稀疏矩阵相乘在spark中的现有方案(multiply)有什么缺陷?如何改进?
  • 请简述协同过滤算法的优缺点
  • 实际业务中,为了让协同过滤对业务产生更大的价值,我们在使用该算法时需要注意哪些问题?
  • 协同过滤算法会存在冷启动的问题,主要体现在哪里?
  • 协同过滤算法可以用于哪些推荐业务场景?
  • 请简述近实时协同过滤算法的工程实现

    矩阵分解

  • 矩阵分解的原理是什么?求解的主要方法有哪些?

  • 如何从深度学习模型的角度来认识矩阵分解模型
  • 矩阵分解算法中,隐向量的长度k的取值是如何影响效果和工程开销的?
  • 请简述奇异值分解的过程。奇异值分解存在什么缺陷?为什么不适用于互联网场景下的求解?
  • 请简述梯度下降法求解用户-物品隐向量的过程。
  • 如何解决矩阵分解中用户和物品打分偏差的问题?

    逻辑回归

  • 逻辑回归模型预估相较于协同过滤,最大的优势是什么?其推荐过程是怎么样的?

  • 请推导逻辑回归的数学形式。
  • 请推导梯度下降法求解逻辑回归参数更新的过程。
  • 逻辑回归作为CTR预估模型的优势与缺陷是什么?
  • 在工业界,很少将连续值作为LR模型的特征输入,而是将连续特征离散化为一系列0、1特征,优势是什么?

    FM

  • CTR预估中所有的特征进行两两交叉,并对所有的的组合赋予权重的方法存在什么缺陷?

  • FM的原理是什么?与矩阵分解有什么联系?
  • FM相较于POLY2为什么泛化能力更好?在工程上有什么优势?
  • FFM相较于FM有什么改进?
  • FM的训练复杂度是多少?怎么推导?FFM的训练复杂度是多少?

    GBDT+LR

  • 为什么GBDT可用于特征选择和特征组合?

  • GBDT+LR组合模型中,GBDT是如何生成特征向量的?
  • GBDT+LR有什么优点和缺陷?

    LS-PLM

  • 请简述阿里妈妈提出的LS-PLM模型的原理与数学形式。

  • LS-PLM模型的优势有哪些?
  • LS-PLM模型与深度学习模型有什么联系? 深度模型

    DeepCrossing

  • 请简述Deep Crossing的网络结构。

  • Deep Crossing中的残差单元有什么作用?
  • NeuralCF在矩阵分解模型的基础上,做了哪些改进?

    PNN

  • PNN相较NeuralCF和Deep Crossing有哪些改进?优势是什么?

  • PNN中特征交叉有哪些方式?分别是怎么样的?
  • PNN模型的优势和局限性是什么?

    Wide&Deep

  • 如何理解Wide&Deep模型的Memorization?

  • Wide&Deep中的Memorization存在哪些缺点?
  • 如何理解Wide&Deep模型的Generalization?
  • Wide&Deep中的Generalization存在哪些缺点?
  • 请简述Wide&Deep的模型结构。
  • Wide&Deep在训练的时候采用了Joint Training,有什么好处?
  • wide&deep论文中作者是如何应用wide&deep来做推荐的?
  • 为什么wide&deep模型用ftrl和adagrad两种优化方法?
  • Wide&Deep模型的创新和优势是什么?
  • 在应用场景中,哪些特征适合放在Wide侧,哪些特征适合放在Deep侧,为什么?
  • wide&deep模型中为什么要将连续特征离散化?
  • Deep&Cross相比Wide&Deep作了哪些改进?Deep&Cross模型的Cross网络是怎么操作的?

    FNN

  • FNN模型的提出主要是为了解决什么问题?它是如何解决的?

  • FNN的模型结构是什么样的?
  • FNN模型中是如何使用FM来初始化Embeddiing层参数的?

    DeepFM

  • DeepFM提出的动机是什么?

  • DeepFM中FM层与NN层是共享特征Embedding的好处是什么?
  • DeepFM相较于Wide&Deep有什么改进?为什么这么改进?
  • NFM相比Wide&Deep有什么改进?为什么这么改?

    DIN

  • 用户对于商品的兴趣有哪些特点?DIN是如何去捕捉用户兴趣的这些特点的?

  • 对于用户兴趣的捕捉,我们一般有哪些方法?
  • DIN的输入是怎么处理的?
  • DIN的激活单元是如何设计的?
  • 为什么增加叉乘作为输入?
  • 为什么使用简单的MLP实现AU呢?
  • DIN中使用激活函数Dice替代经典的PReLU激活函数,优势是什么?
  • DIN使用了一种自适应正则,它的动机是什么?
  • DIN论文中使用了GAUC作为评价指标,它的好处是什么?
  • DIEN引入序列信息的动机是什么?
  • 请绘制DIEN各层的结构?兴趣抽取层和兴趣进化层。

    CVR

  • CVR预估到底要预估什么?

  • 与CTR预估不同,cvr预估中面临的数据稀疏和样本选择偏差分别指的是什么?

    ESMM

  • ESMM是如何解决样本选择偏差问题的?

  • ESMM是如何解决数据稀疏问题的?
  • ESMM的结构基于“乘”的关系设计而不是基于除的原因是什么?
  • 解释一下ESMM的目标函数 Embedding

    Embedding

  • Embedding技术为何对深度学习推荐系统来说非常重要?

  • 请简述Word2Vec的原理和结构。
  • 为了加快Word2Vec的训练,采取了什么方法?
  • 谈谈你对Item2Vec的理解,它的局限是什么?
  • 请简述双塔模型的结构,其中物品塔的作用是什么?
  • 模型结构越复杂越好吗?特征越多越好吗?
  • DeepWalk的主要思想是什么?说出算法步骤
  • Node2Vec中的同质性和结构性指的是什么?他们与DFS和BFS的对应关系如何?
  • 请写出Node2Vec的节点间跳转概率公式。
  • 举例说明Node2Vec的同质性和结构性在推荐系统中的直观解释。
  • EGES的提出主要是为了弥补DeepWalk的缺陷的,怎么弥补的?
  • 请简述EGES模型的结构,并简述每一层的做法。
  • Embedding在深度学习推荐系统中有哪些应用?列举三个方向。
  • Embedding作为深度学习模型的训练会存在什么问题?
  • Embedding有哪些预训练方法,分别介绍一下.

    召回

  • 请简述Embedding作为召回层的过程。

  • 请简述局部敏感哈希的原理及其在推荐系统中的作用。
  • 假设物品库数量达到百万级别,如何设计方法从这个数量级别的物品中推荐给用户top10的物品,同时可以减少计算的压力?
  • 排序为什么比召回更受关注?
  • 召回模型有什么显著区别于排序模型的特点?
  • 为什么不能只拿”曝光未点击”做召回模型的负样本?
  • 召回模型是如何对负样本进行随机采样的?
  • 使用随机采样样本做负样本有什么缺陷?如何解决?
  • 推荐系统中为什么要有召回?在推荐系统中召回和排序有什么异同?
  • 推荐系统召回是怎么实现热门item的打压?
  • CTR预估与推荐系统的目标存在什么gap?
  • 现实推荐系统只按”预估CTR”排序吗?
  • 为什么CTR预估只适用于具备“真负”样本的场景?
  • 推荐系统中有哪些场景是无法获得真负样本的?如何解决?
  • 请简述基于embedding的召回方法,优势是什么?
  • Airbnb召回算法中的listing embedding召回是如何选择正负样本的?
  • Airbnb召回算法中的user/listing-type embedding召回是如何选择正负样本的?
  • Facebook的EBR算法是如何选择正负样本的?
  • 召回为什么要求具有隔离user与item特征的解耦性?具体怎么解耦?
  • 在召回场景下,为什么往往采用Pairwise LearningToRank来构建排序的相对准确性?
  • 优化召回Pairwise LearningToRank使用的损失函数可以有哪几种形式?
  • Pinterest的PinSAGE是如何构建正样本的?
  • 请简述DSSM模型的原理
  • DSSM的输入层将文本映射到低维向量空间转化成向量 会存在什么问题?
  • 请简要描述DSSM是如何应用于召回的?结构是怎样的?
  • 请简述一下DSSM的优缺点
  • DSSM中的负样本为什么是随机采样得到的,而不用“曝光未点击”当负样本?
  • 请简述百度的双塔模型
  • 请简述YoutubeDNN的结构和其原理
  • 请简述用户多兴趣网络MIND的出发点是什么,描述其结构?
  • SDM是如何结合用户长期和短期兴趣建模的?其结构如何? 特征工程
  • 让你设计一个推荐系统的特征工程,你会怎么去设计?包括用户侧、物品侧和上下文特征。
  • 在进行特征处理时,对连续型特征怎么处理?
  • 在进行特征处理时,对类别型特征怎么处理? 探索与利用
  • 当新用户注册或新物品入库的时候,该怎么给用户提供满意的推荐服务,以及怎么将新物品推荐出去,推荐给喜欢他的用户?
  • 简述探索与利用的含义。
  • Greedy算法的原理是什么?有什么缺陷?
  • 请简述Thompson Sampling方法的原理和步骤。
  • 请问UCB方法是如何解决冷启动中的探索和利用问题的?
  • 简述LinUCB的原理与具体的做法。 特征评估
  • 模型的实时性是如何影响推荐系统的效果的?
  • 客户端是如何做到对于实时特征进行实时推荐的?
  • 流计算平台是如何进行准实时特征处理的?
  • 分布式存储系统HDFS和分布式批处理平台在推荐中的作用有哪些?
  • 请简述offline/nearline/online训练方法和步骤。
  • 请说出几种离线评估的指标。
  • 请说出P-R曲线、ROC曲线和AUC的含义和关系。
  • 如何巧妙地绘制ROC曲线?
  • 线下AUC提升,一定会带来线上指标的提升吗?为什么?
  • 为什么要进行AB测试?相比离线评估的优势是什么?
  • AB测试是如何设计分层和分流机制的?