如何理解Wide&Deep模型的Memorization？

如何理解Wide&Deep模型的Memorization？

记忆能力（Memorization）可以被理解模型直接学习并利用历史数据中物品或者特征的“共现频率”的能力。像逻辑回归、协同过滤等简单模型的结构较为简单,原始数据往往可以直接影响推荐结果,产生类似于“如果点击过A,就推荐B”这类规则式的推荐,相当于模型直接记住了历史数据的分布特点,并利用这些记忆进行推荐。即一旦发现了“强特征”,相应的权重会在模型(例如逻辑回归)训练过程中被调整的非常大,就实现了对这个特征的记忆。
通过一系列人工的特征叉乘（cross-product）来构造这些非线性特征，捕捉sparse特征之间的高阶相关性，即“记忆” 历史数据中曾共同出现过的特征对。
典型代表是LR模型，使用大量的原始sparse特征和叉乘特征作为输入，很多原始的dense特征通常也会被分桶离散化构造为sparse特征。这种做法的优点是模型可解释高，实现快速高效，特征重要度易于分析，在工业界已被证明是很有效的。

Wide&Deep中的Memorization存在哪些缺点？
如何理解Wide&Deep模型的Generalization？
Wide&Deep中的Generalization存在哪些缺点？
请简述Wide&Deep的模型结构。
Wide&Deep在训练的时候采用了Joint Training，有什么好处？
wide&deep论文中作者是如何应用wide&deep来做推荐的？
为什么wide&deep模型用ftrl和adagrad两种优化方法？
Wide&Deep模型的创新和优势是什么？
在应用场景中，哪些特征适合放在Wide侧，哪些特征适合放在Deep侧，为什么？
wide&deep模型中为什么要将连续特征离散化？
Deep&Cross相比Wide&Deep作了哪些改进？Deep&Cross模型的Cross网络是怎么操作的？