漫谈表示学习

表示学习出现的背景
参考文献

以Word2Vec为代表的表征学习，可以运用到各个领域。本文主要对表示学习出现的背景和原理进行深入探讨。

表示学习出现的背景

传统机器学习中有监督的分类问题，常用的模型可以分为树模型和线性模型。其中，树模型是逐个特征构造和训练空间划分的方法，线性模型使用的是寻找决策平面的方法。因此，分类问题的学习过程本质是将样本投影到特征空间中，然后寻找这个投影场景下的最佳空间划分方式。如果分类问题中的投影空间具有很好的可分性和局部平滑性，那么就可以达到很好的分类效果。然而，在常见的应用中，构造出的特征可以分为如下几类：

连续数值类特征
低维ID类特征
高维ID类特征

其中，高维ID类特征进行特征空间划分时容易造成数据稀疏的问题。正是由于高维ID特征带来的稀疏性挑战、泛化挑战和训练挑战就成为了驱动表示学习的最直接源动力。

本质上，表示学习是一种数据降维的学习方法，也是自动化降维的方法。自动化降维发展的推动，受到以下原因的影响：

人为划分类型进行降维不一定合适
很多场景下没有类别信息可以参考

表示学习的目标：

向量的维度远远小于ID类特征的维度。
向量具有足够的区分度。
向量具有足够的信息，且不具有冗余信息。

参考文献
漫谈表征学习

表示学习出现的背景

参考文献