如何理解Wide&Deep模型的Memorization?

记忆能力(Memorization)可以被理解模型直接学习并利用历史数据中物品或者特征的“共现频率”的能力。像逻辑回归、协同过滤等简单模型的结构较为简单,原始数据往往可以直接影响推荐结果,产生类似于“如果点击过A,就推荐B”这类规则式的推荐,相当于模型直接记住了历史数据的分布特点,并利用这些记忆进行推荐。即一旦发现了“强特征”,相应的权重会在模型(例如逻辑回归)训练过程中被调整的非常大,就实现了对这个特征的记忆。
通过一系列人工的特征叉乘(cross-product)来构造这些非线性特征,捕捉sparse特征之间的高阶相关性,即“记忆” 历史数据中曾共同出现过的特征对。
典型代表是LR模型,使用大量的原始sparse特征和叉乘特征作为输入,很多原始的dense特征通常也会被分桶离散化构造为sparse特征。这种做法的优点是模型可解释高,实现快速高效,特征重要度易于分析,在工业界已被证明是很有效的。

  • Wide&Deep中的Memorization存在哪些缺点?
  • 如何理解Wide&Deep模型的Generalization?
  • Wide&Deep中的Generalization存在哪些缺点?
  • 请简述Wide&Deep的模型结构。
  • Wide&Deep在训练的时候采用了Joint Training,有什么好处?
  • wide&deep论文中作者是如何应用wide&deep来做推荐的?
  • 为什么wide&deep模型用ftrl和adagrad两种优化方法?
  • Wide&Deep模型的创新和优势是什么?
  • 在应用场景中,哪些特征适合放在Wide侧,哪些特征适合放在Deep侧,为什么?
  • wide&deep模型中为什么要将连续特征离散化?
  • Deep&Cross相比Wide&Deep作了哪些改进?Deep&Cross模型的Cross网络是怎么操作的?