以Word2Vec为代表的表征学习,可以运用到各个领域。本文主要对表示学习出现的背景和原理进行深入探讨。

表示学习出现的背景

传统机器学习中有监督的分类问题,常用的模型可以分为树模型和线性模型。其中,树模型是逐个特征构造和训练空间划分的方法,线性模型使用的是寻找决策平面的方法。因此,分类问题的学习过程本质是将样本投影到特征空间中,然后寻找这个投影场景下的最佳空间划分方式。如果分类问题中的投影空间具有很好的可分性和局部平滑性,那么就可以达到很好的分类效果。然而,在常见的应用中,构造出的特征可以分为如下几类:

  1. 连续数值类特征
  2. 低维ID类特征
  3. 高维ID类特征

其中,高维ID类特征进行特征空间划分时容易造成数据稀疏的问题。正是由于高维ID特征带来的稀疏性挑战、泛化挑战和训练挑战就成为了驱动表示学习的最直接源动力

本质上,表示学习是一种数据降维的学习方法,也是自动化降维的方法。自动化降维发展的推动,受到以下原因的影响:

  1. 人为划分类型进行降维不一定合适
  2. 很多场景下没有类别信息可以参考

表示学习的目标:

  1. 向量的维度远远小于ID类特征的维度。
  2. 向量具有足够的区分度。
  3. 向量具有足够的信息,且不具有冗余信息。

    参考文献

  4. 漫谈表征学习