论文笔记 - Lifelong Domain Adaptation via Consolidated Internal Distribution - 《Machine Learning》

问题设定
所提方法
理论分析

截屏2022-03-07 上午11.07.22.png

问题设定

Unsupervised domain adaptation (UDA) 和 Continual Learning (CL) 相结合，利用无标记数据持续学习新任务的数据分布偏移，同时保持以往任务中的知识。UDA 可以解决数据分布偏移的问题，但是同时需要源域、目标域的数据，用于估计分布之间的距离；CL 则更多考虑数据中有标记的情况，使用标记来样本模型迁移到新的任务中。

初始化阶段，有来自源域的标记数据集 Lifelong Domain Adaptation via Consolidated Internal Distribution - 图3 ，其中。利用%22%20aria-hidden%3D%22true%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJSCR-44%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20transform%3D%22scale(0.707)%22%20xlink%3Ahref%3D%22%23E1-MJSCR-53%22%20x%3D%221095%22%20y%3D%22-222%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fsvg%3E#card=math&code=%5Cmathcal%7BD%7D%7B%5Cmathcal%7BS%7D%7D&id=FNGeK)训练一个初始化分类模型 ![](https://cdn.nlark.com/yuque/__latex/1c4189875ec8c874827f26d51a83dca1.svg#card=math&code=f%7B%5Chat%7B%5Ctheta%7D%7B0%7D%7D&id=qFzMj)。
随后的 个时刻中，将会有若干个仅包含无标记数据的任务相继到来：![](https://cdn.nlark.com/yuque/__latex/e36b0374c9292bd7f5d709901827007f.svg#card=math&code=%5Cmathcal%7BD%7D%7B%5Cmathcal%7BT%7D%7D%5E%7Bt%7D%3D%5Cleft%28%5Cboldsymbol%7BX%7D%7Bt%7D%5Cright%29&id=LsYhH)满足 ![](https://cdn.nlark.com/yuque/__latex/025db9813541353211775d662c9ba0d9.svg#card=math&code=%5Cboldsymbol%7BX%7D%7Bt%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd%20%5Ctimes%20M%7Bt%7D%7D%2C%20%5Cboldsymbol%7Bx%7D%7Bi%7D%5E%7Bt%7D%20%5Csim%20p%7Bt%7D%28%5Cboldsymbol%7Bx%7D%29%2C%20%5Ctext%20%7B%20and%20%7D%20%5Cforall%20t%7B1%7D%2C%20t%7B2%7D%3A%20p%7Bt%7B1%7D%7D%20%5Cneq%20p%7Bt%7B2%7D%7D&id=I8t1V)。
模型需要能够在每个时刻中，利用无监督数据集 ![](https://cdn.nlark.com/yuque/__latex/1cabd4df041d6ee55d976250b75b18e1.svg#card=math&code=%5Cmathcal%7BD%7D%7B%5Cmathcal%7BT%7D%7D%5E%7Bt%7D&id=M3Xoc)进行迭代在目标域上泛化性能良好。

所提方法

表示刻画表示分布

利用源域数据学习一个 Lifelong Domain Adaptation via Consolidated Internal Distribution - 图9 %22%20aria-hidden%3D%22true%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJSCR-44%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20transform%3D%22scale(0.707)%22%20xlink%3Ahref%3D%22%23E1-MJSCR-53%22%20x%3D%221095%22%20y%3D%22-222%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fsvg%3E#card=math&code=%5Cmathcal%7BD%7D%7B%5Cmathcal%7BS%7D%7D&id=tTEJk)学习一个能够较好区分类别的特征表示，然后使用一个拥有个部分的 GMM ![](https://cdn.nlark.com/yuque/__latex/6542693e731b34a375ebc4dfbb5da6ce.svg#card=math&code=p%7BJ%7D%5E%7B0%7D%28z%29%3D%5Csum%7Bj%3D1%7D%5E%7Bk%7D%20%5Calpha%7Bj%7D%5E%7B0%7D%20%5Cmathcal%7BN%7D%5Cleft%28z%20%5Cmid%20%5Cboldsymbol%7B%5Cmu%7D%7Bj%7D%5E%7B0%7D%2C%20%5Cmathbf%7B%5CSigma%7D%7Bj%7D%5E%7B0%7D%5Cright%29&id=qdxxv)对特征表示进行拟合（每个类别都是用一个高斯分布来拟合）：
Lifelong Domain Adaptation via Consolidated Internal Distribution - 图11

表示更新与分类器巩固

在任意后续时刻 Lifelong Domain Adaptation via Consolidated Internal Distribution - 图12 ，将定义为此时刻估计得到的 GMM，从总采样得到高维特征与伪标记组成的数据集，其中：
做两件事：(1) 使分类器在采样数据集中保持泛化能力 (2) 优化表示，拉近新任务的数据分布与已有GMM数据分布之间的距离：
Lifelong Domain Adaptation via Consolidated Internal Distribution - 图16

克服灾难性遗忘

其中，为了克服灾难性遗忘，还加入了一个缓存 Lifelong Domain Adaptation via Consolidated Internal Distribution - 图17 用来存储已见任务的数据，并且在缓存上优化相同事情：

伪代码

理论分析

理论分析是关于模型在以往任务上的性能，比较偏向于 Continual Learning。利用了 Domain Adaptation 里的一个理论辅助证明了当模型泛化到目标域时，旧任务上的性能有一定的保证。
截屏2022-03-08 上午10.37.43.png