以Word2Vec为代表的表征学习,可以运用到各个领域。本文主要对表示学习出现的背景和原理进行深入探讨。
表示学习出现的背景
传统机器学习中有监督的分类问题,常用的模型可以分为树模型和线性模型。其中,树模型是逐个特征构造和训练空间划分的方法,线性模型使用的是寻找决策平面的方法。因此,分类问题的学习过程本质是将样本投影到特征空间中,然后寻找这个投影场景下的最佳空间划分方式。如果分类问题中的投影空间具有很好的可分性和局部平滑性,那么就可以达到很好的分类效果。然而,在常见的应用中,构造出的特征可以分为如下几类:
- 连续数值类特征
- 低维ID类特征
- 高维ID类特征
其中,高维ID类特征进行特征空间划分时容易造成数据稀疏的问题。正是由于高维ID特征带来的稀疏性挑战、泛化挑战和训练挑战就成为了驱动表示学习的最直接源动力。
本质上,表示学习是一种数据降维的学习方法,也是自动化降维的方法。自动化降维发展的推动,受到以下原因的影响:
- 人为划分类型进行降维不一定合适
- 很多场景下没有类别信息可以参考
表示学习的目标: