• 分享主题:Transfer Learning
  • 论文标题:A Comprehensive Survey on Transfer Learning
  • 论文链接:https://arxiv.org/pdf/1911.02685.pdf

    1.Summary

    This is a survey of transfer learning. The methods of transfer learning can be divided into four categories: 1.Instance-Based approach, 2.Feature-Based approach, 3.Parameter-Based approach, 4.Relational-Based approach. Because the Relational-Based Approach is rarely used, this paper does not describe it. This paper divides the remaining three methods into two categories: 1.Data-Based approach, 2 Model-Based approach. The Data-Based method includes Instance-Based approach and Feature-Based approach. The Model-Based approach includes the Parameter-Based approach. The information in this article is very large, in order to deepen my understanding of this paper, I should read some of the cited papers.

    2.你对于论文的思考

    这是一篇迁移学习的综述,文中把迁移学习的主要方法分为了两大类:1.基于数据的迁移学习方法,2.基于模型的迁移学习方法,并根据这两类方法进行了详细描述。这篇文章的信息量很多,内容比较完备,基本上对于方法的描述也比较清晰,但有一些比较难的方法还是得查阅别的资料才能大致得到理解。

    3. 其他

    3.1迁移学习分类

    迁移学习可以根据是否有标签分成三个类别:
    1.转导学习:只有source domain是有标签的
    2.直导学习:source domain和target domain都有标签
    3.无监督迁移学习:source domain和target domain都没有标签

可以根据source domain 和 target domain 上的 feature space 和 label space的异同来分类:
1.同质迁移学习:20220112174108.png
2.异质迁移学习:20220112174134.png

按照迁移学习的方法来分类:
1.基于样本的方法:基于不同的样本权重
2.基于特征的方法:将原样本特征映射到新的表征上
3.基于参数的方法:在模型或者模型参数上来迁移学到的知识
4.基于关系的方法:关注于具有一定的关系的领域,比如老师上课、学生听课就可以类比为公司开会的场景,这种类比就是一种基于关系的迁移学习方法

本文不讨论,基于关系的方法,并把基于样本的方法和基于特征的方法归为基于数据的方法,把基于参数的方法归为基于模型的方法。

3.2基于数据(DATA-BASED)

3.2.1实例权重策略

  1. 固定权重的方法
    有比较多的有标签的source domain数据,以及少量的target domain的数据,并且两个domain上的数据只有样本的分布不一致,可以考虑对source domain中的样本添加一些权重,使得两个分布相近。
    image.png
    目标函数就可以表示如下:
    image.png
    其中β是权重参数。可以用Kernel mean matching (KMM) 来获得对应的权重参数β:
    image.png
    2.不固定权重的方法:比如TrAdaBoost,在训练的过成功更新权重参数。

    3.2.2特征转化策略

    分布差异度量

    如maximum mean discrepancy (MMD):
    image.png
    其它还有Kullback-Leibler Divergence、Jensen-Shannon Divergence、Bregman Divergence、Hilbert-Schmidt Independence Criterion等方法。

    特征增强

    针对source domain 和 target domain上的特征,可以对原来的feature进行一定的增强,从而获得三类不同的特征 (1) 通用特征 (2) source domain特有特征 (3) target domain 特有特征。
    对于同质的迁移学习任务,得到如下的特征映射:
    image.png
    对于异质的迁移学习任务,对于通用特征,就需要转换到相同的维度,则需要额外的学习一个矩阵用于映射, 得到如下的特征映射:
    image.png

    特征映射

    学习一个映射函数 Φ ,优化如下的目标函数:
    image.png
    要通过映射函数 Φ获得一个表征,使得source domain 和 target domain 上的分布尽可能相近,并且数据的方差要比较大,方便后续区分。
    如果要保有数据的结构特征 ,那么需要对数据的结构特征进行学习及限制,可以得到如下目标函数:
    image.png
    以上的优化目标中,除了边缘分布的相似性,同样也考虑了条件分布的相似性。

    特征选择

    目的是在source domain和target domain中选择出作用相同的特征,这些特征可以作为迁移的桥梁。

    特征编码

    这个方法就是利用Autoencoder来学习一个新的特征编码,然后所有样本的特征转换到Autoencoder学到的特征编码这个space上去,再在这个新的space上学习模型。

    特征对齐

    在前面提到的方法中往往都是利用一些显性的特征,但是实际上还有许多隐性的特征是可以利用的,比如子空间特征、谱特征、统计特征。对于这些隐性特征,我们可以分别在source domain和target domain计算这些特征,并且研究这些隐性特征如何可以在两个domain上进行对齐,以子空间特征为例,先为source domain和target domain生成各自的子空间,然后学习一个转移矩阵W,如下面式子所示,最后用转移矩阵W对齐source domain和target domain的特征。
    20220112180910.png

    3.3基于模型(MODEL-BASED)

    3.3.1模型控制策略

    image.png
    其中第一项表示的是优化的目标函数,比如优化均方误差,第二项的则用来统一代表不同的正则化函数,第三项则是用来限制模型的复杂程度的。

    Consensus Regularizer

    该方法是针对target domain上没有标签的情形,并且拥有多个source domain,可以建立数量为source domain个数的分类器,优化目标为:
    image.png
    其中S(x) = -xlogx,优化目标中第一项表示优化source domain的NLL损失,而最后一项则是在优化交叉熵,这样做的目的在于,提高不同的分类器在target domain上的共识,并且降低在target domain上预测的不确定性。

    Domain-dependent Regularizer

    该方法是针对target domain上即有有标签的数据,也有无标签的数据,并且拥有多个source domain,优化目标为:
    image.png
    第一项是在利用有标签数据优化target domain上的均方误差,最后一项是在利用无标签数据进行优化,希望在无标签数据上,每个source domain上的预测结果与target domain上的预测结果尽可能相近。

    3.3.2参数控制策略

    参数共享

    把在source domain上学习到的模型的参数全部或部分迁移到target domain上,后续可以用target domain的少量数据对迁移过来的部分或者全部参数进行微调。

    参数限制

    参数共享是让source domain和target domain共用一些参数,而在参数限制的方法中,则是要求两个domain上的某些参数尽可能相似。
    image.png

    3.3.3模型集成策略

    TaskTrAdaBoost

    这个方法与AdaBoost的思想类似,TaskTrAdaBoost首先在source domain上训练多个弱分类器,形成一个分类器池,然后再在target domain上衡量这些弱分类器的表现,每次挑一个表现最好的分类器出来,然后再给target domain上的样本按照分类误差进行赋权。

    Locally Weighted Ensemble

    TaskTrAdaBoost是对每个分类器给予一个权重,相当于该分类器对所有的样本的权重是一致的, Locally Weighted Ensemble则是每个分类器对于不同的样本的权重也应该不同。

    Ensemble Framework of Anchor Adapters

    上面两种方法侧重于如何加权,而这种方法关注如何构建弱分类器。

    3.3.4深度学习技术

    除了传统的深度学习技术,还有生成深度学习技术,就是利用GAN的思想,对于source domain和target domain都要提取特征来进行预测,另外有一个分类器,需要分辨提取出来的特征是来自哪个domain,用来充当GAN中的判别模型的角色,最终要求这个判别模型分辨不出数据是来自于哪个domain,从而在两个domain上能够提取到足够相近的特征。